Stable Diffusion 3來(lái)了!100%理解提示詞,不僅能生成文字,還涌現(xiàn)出物理能力了?

硅星人
1 評(píng)論 3460 瀏覽 28 收藏 8 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

作為AI繪畫(huà)界的領(lǐng)頭羊,Stable Diffusion最近又放大招——發(fā)布了 Stable Diffusion 3 早期預(yù)覽版。但這款模型目前還沒(méi)開(kāi)放測(cè)試,從目前內(nèi)部員工曬圖的效果來(lái)看,Stable Diffusion 3已經(jīng)完全可以當(dāng)做日常的作圖使用。

在文生圖領(lǐng)域,Midjourney像是玩具,而Stable Diffusion憑借穩(wěn)定、可控和高效的能力,一直是最接近可用工具的一款文生圖模型。

2024年2月22日,stability.ai發(fā)布了 Stable Diffusion 3 早期預(yù)覽版。這款模型目前還沒(méi)開(kāi)放測(cè)試。

排隊(duì)鏈接:

https://stability.ai/stablediffusion3

本次更新重點(diǎn):

  • 在圖片質(zhì)量、多主題提示(multi-subject prompts)和單詞拼寫(xiě)能力方面有大幅提升;
  • 使用了新型擴(kuò)散變壓器(類似于Sora)并結(jié)合了流量匹配和其他改進(jìn);
  • 模型尺寸從 800m 到 8B 參數(shù),將適用于各種設(shè)備的部署;
  • 安全貫穿模型訓(xùn)練、測(cè)試、評(píng)估和部署全過(guò)程。

雖然現(xiàn)在還沒(méi)能開(kāi)放測(cè)試,但一些stability.ai的員工已經(jīng)開(kāi)始在社交媒體曬圖了。Sora帶了一波“好頭”。

Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat.(一張紅色球體位于藍(lán)色立方體之上的照片。后面是一個(gè)綠色三角形,右邊是一只狗,左邊是一只貓)

Prompt:Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.(木桌上放著三個(gè)透明玻璃瓶。左邊的是紅色液體,數(shù)字是 1。中間的是藍(lán)色液體,數(shù)字是 2。右邊的是綠色液體和數(shù)字 3)

Prompt:Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text “it’s here!”. In the background we see a big rain approaching.(一幅動(dòng)漫風(fēng)格的插圖,畫(huà)的是小草山頂上的一個(gè)報(bào)刊亭,在報(bào)刊亭的頂部,我們看到 “它來(lái)了!”的文字。背景是一場(chǎng)大雨即將來(lái)臨。)

Prompt:A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.(在一片綠草如茵的田野上,一匹馬在一個(gè)五顏六色的球上面保持平衡,背景是一座山)

Prompt:Wide photo of a shipwreck on the beach, lots of rust and moss on the ship contrasting with the beautiful blue of the ocean water and the peace that the beauty of nature conveys. The big waves are magnificent and touch the ship.(海邊沉船的寬幅照片,船上的大量銹跡和苔蘚與海水的美麗蔚藍(lán)形成鮮明對(duì)比,大自然的美給人帶來(lái)寧?kù)o。大浪波瀾壯闊,觸及船只。)

以上Stable Diffusion 3的圖片來(lái)自@andrekerygma和@EMostaque。SDXL和DELL-E的部分是通過(guò)他們給出的Prompt自己做的。

目前展現(xiàn)出的Stable Diffusion 3的表現(xiàn)基本上可以100%的還原提示詞。馬的那幅圖,還能看到馬踩在球上,球發(fā)生了形變。

這次更新的一個(gè)重點(diǎn)是單詞的拼寫(xiě)能力。比如:

Prompt: Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.(辦公桌上 90 年代臺(tái)式電腦的照片,電腦屏幕上寫(xiě)著 “歡迎”。在背景墻上,我們看到了美麗的涂鴉,”SD3 “字樣非常醒目。)

Prompt: Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.(灶臺(tái)上放著一塊刺繡布,上面寫(xiě)著 “晚安 “和一只刺繡小老虎。布的旁邊有一支點(diǎn)燃的蠟燭。燈光昏暗而富有戲劇性。)

不管是屏幕上的顯像管效果,還是繡布上面的刺繡效果,雖然在提示詞中沒(méi)有給出明確的提示詞,Stable Diffusion 3也給welcome、good night這些文字使用了最合適的效果展現(xiàn),文字和畫(huà)面融合堪稱完美。

之后放出技術(shù)細(xì)節(jié)和開(kāi)放測(cè)試之后,我們也會(huì)再上手測(cè)試一波,歡迎大家持續(xù)關(guān)注我們。

不過(guò)測(cè)試什么的都已經(jīng)是次要的了,從目前展現(xiàn)出的能力來(lái)看,Stable Diffusion 3已經(jīng)完全可以當(dāng)做日常的作圖使用。

作者:椰子

來(lái)源公眾號(hào):硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Pixabay,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 預(yù)約了,坐等

    來(lái)自中國(guó) 回復(fù)
专题
12573人已学习12篇文章
本专题的文章分享了系统首页设计指南。
专题
15981人已学习12篇文章
区别于普通业务,中台能让系统更好地满足业务需求,提升系统效率。本专题的文章分享了如何搭建业务中台。
专题
13516人已学习15篇文章
私域流量是与公域流量相对的概念,本专题的文章主要通过几个核心的问题,为大家解读私域流量背后的底层逻辑。
专题
32154人已学习19篇文章
一个合格的购物车是怎么设计出来的?
专题
15453人已学习12篇文章
虽然大厂们纷纷奔赴Web3.0,但是不少人还是对这个概念及相应生态一知半解。本专题的文章分享了对于web3的看法。