從即夢(mèng)的AI文字圖片能力,淺談AI圖片工具平臺(tái)的未來(lái)

0 評(píng)論 1660 瀏覽 0 收藏 31 分鐘

本文將帶您深入了解即夢(mèng)AI圖片工具的最新進(jìn)展,特別是其v2.1版本在文字圖片生成能力上的突破。通過(guò)對(duì)即夢(mèng)AI圖片模型的測(cè)試和分析,探討了這一技術(shù)進(jìn)步如何拓展AI圖片應(yīng)用的場(chǎng)景,并預(yù)測(cè)了AI圖片工具平臺(tái)的未來(lái)發(fā)展。

之前看到過(guò)幾款海外的AI圖片工具,比如Recaf、ideogram。通過(guò)輸入文字,在圖片上增加藝術(shù)字,或者生成融入畫面的字,同時(shí)會(huì)利用圖片生成AI補(bǔ)足畫面的內(nèi)容。

整體上效果還挺好,只可惜,不能生成中文的,導(dǎo)致完全不能用上這個(gè)能力。

但是最近看到即夢(mèng)推出了v2.1,滿足了我這個(gè)想法。于是便研究一二,與各位大大講講我的分析。

一、即夢(mèng)的v2.1圖片模型是什么?

我們先簡(jiǎn)單談?wù)?,即?mèng)的這個(gè)新版本圖片生成模型是什么?

該能力可以在【圖片生成】-【生圖模型】上面進(jìn)行選擇。

官方對(duì)其的描述是“穩(wěn)定的結(jié)構(gòu)和更強(qiáng)的影視質(zhì)感,支持生成中、英文文字”。

以下是俺的測(cè)試結(jié)果,會(huì)分為“低”、“中”、“高”多個(gè)難度檔位進(jìn)行測(cè)試,難度的提升以“主體數(shù)量”、“文本內(nèi)容數(shù)量”、“細(xì)節(jié)描述豐富度”為大致的邊界。

同時(shí),測(cè)試的方向會(huì)分為“寫實(shí)照片”、“電商海報(bào)”、“電影海報(bào)”、“黑白漫畫”、“二次元卡通”這幾個(gè)俺能想到的場(chǎng)景。

1. 寫實(shí)照片

1)低難度:

提示詞:

一個(gè)男人拿著牌匾,站在辦公樓門口,牌匾上寫著“不干了”。

2)中難度:

提示詞:

寫實(shí)照片風(fēng)格。一個(gè)男人拿著牌匾,站在辦公樓門口,牌匾上寫著書(shū)法字體的“不干了”。這個(gè)男人臉上是憤怒的表情。他的背后是站著他的老板,表情憤怒。辦公樓門檻上寫著公司名字“人力電池?zé)o限公司”。

3)高難度:

提示詞:

寫實(shí)照片風(fēng)格。

一個(gè)男人拿著牌匾,站在辦公樓門口,牌匾上寫著書(shū)法字體的“不干了”。男人要上挎著個(gè)喇叭。這個(gè)男人臉上是憤怒的表情。他的背后是站著他的老板,表情憤怒。辦公樓門檻上寫著公司名字“人力電池?zé)o限公司”。

男人的前面站著一群圍觀的人群。

圖片的右下角寫上日期“2024-10-10”.

問(wèn)題小結(jié):

1.當(dāng)中難度的提示詞多的時(shí)候,對(duì)于畫風(fēng)和字體內(nèi)容的指令執(zhí)行不到位,存在不準(zhǔn)確的情況。

2.中高難度下,部分文字內(nèi)容展示不正確,比如“不干了”前面會(huì)加其他詞、“人力電池?zé)o限公司”有時(shí)候會(huì)多一個(gè)字……。

3.高難度下,對(duì)于有位置要求的文字?jǐn)[放不正確。

2.電商海報(bào)

1)低難度:

提示詞:

這是一張電商海報(bào),需要在海報(bào)中增加標(biāo)題。海報(bào)標(biāo)題:“新品上市”海報(bào)主體:熱干面

2)中難度:

提示詞:

這是一張電商海報(bào),需要在海報(bào)中增加標(biāo)題。海報(bào)畫風(fēng):寫實(shí)畫風(fēng) 海報(bào)標(biāo)題:“新品上市”海報(bào)主體:熱干面背景要求:熱干面放在一張桌子上底部小字:又香又辣

3)高難度:

提示詞:

這是一張電商海報(bào),需要在海報(bào)中增加標(biāo)題。

海報(bào)畫風(fēng):寫實(shí)畫風(fēng)

海報(bào)標(biāo)題:“新品上市”

海報(bào)主體:熱干面

背景要求:熱干面放在一張桌子上

底部小字:又香又辣

底部字體樣式:紅底白字

問(wèn)題小結(jié):

1.會(huì)在生成的字體附近添加上一些無(wú)意義的符號(hào)或者內(nèi)容不明確的文本內(nèi)容。需要人工二次處理清理干凈。

3. 電影海報(bào)

1)低難度:

提示詞:

這是一張電影海報(bào),需要在海報(bào)中增加標(biāo)題。

海報(bào)畫風(fēng):寫實(shí)畫風(fēng)

海報(bào)標(biāo)題:“職場(chǎng)求生”

海報(bào)主體:打工人一個(gè)人在深夜的辦公室

2)中難度:

提示詞:

這是一張電影海報(bào),需要在海報(bào)中增加標(biāo)題。

海報(bào)畫風(fēng):寫實(shí)畫風(fēng)

海報(bào)標(biāo)題:“職場(chǎng)求生”

海報(bào)內(nèi)容:打工人一個(gè)人在深夜的辦公室,背后是一排開(kāi)著的電腦

底部小字:10月上映

3)高難度:

提示詞:

這是一張電影海報(bào),需要在海報(bào)中增加標(biāo)題。

海報(bào)畫風(fēng):寫實(shí)畫風(fēng)

海報(bào)標(biāo)題:“職場(chǎng)求生”

標(biāo)題要求:超大字體,包圍著打工人

海報(bào)內(nèi)容:打工人一個(gè)人在深夜的辦公室,背后是一排開(kāi)著的電腦,燈光黑暗

底部小字:10月上映

問(wèn)題小結(jié):

1.同樣會(huì)生成一些不干不凈的文本內(nèi)容。

2.畫風(fēng)識(shí)別不正確。

4. 黑白漫畫

1)低難度:

提示詞:

這是一張黑白漫畫。講述的是男人在職場(chǎng)被辱罵的場(chǎng)景。

男人頭上有個(gè)聊天氣泡,內(nèi)容是“對(duì)不起!”

2)中難度:

提示詞:

這是一張黑白漫畫。講述的是男人在職場(chǎng)被辱罵的場(chǎng)景。男人在低著頭向上司道歉,臉上驚恐萬(wàn)分。右邊是領(lǐng)導(dǎo),伸著手指在辱罵男的。

男人頭上有個(gè)聊天氣泡,內(nèi)容是“對(duì)不起!”

領(lǐng)導(dǎo)頭上有個(gè)聊天氣泡,內(nèi)容是“干不了給我滾蛋!”

3)高難度:

提示詞:

這是一張黑白漫畫。講述的是男人在職場(chǎng)被辱罵的場(chǎng)景。畫面里面有4格分鏡,右上角的分鏡是西裝革履的男人進(jìn)入了領(lǐng)導(dǎo)辦公室。左上角的分鏡是油頭中年領(lǐng)導(dǎo)的特寫。旁邊有一個(gè)聊天氣泡“你知道我為什么找你嗎?”右下角的分鏡是男人在鞠躬。左下角是男人臉部特寫,男人表情痛苦。旁邊有一個(gè)聊天氣泡“你知道我為什么找你嗎?”

問(wèn)題小結(jié):

1.同樣會(huì)生成一些不干不凈的文本內(nèi)容。

2.字存在“部分小瑕疵”、“字寫錯(cuò)”的問(wèn)題,字體格式不夠規(guī)整。

3.文本位置不正確,如圖這兩句話是要兩個(gè)人說(shuō)的。

5. 二次元卡通

1)低難度:

提示詞:

這是一張二次元海報(bào)。海報(bào)主體是一個(gè)二次元少女。海報(bào)標(biāo)題上寫著“AI校園”。

2)中難度:

提示詞:

這是一張二次元海報(bào)。海報(bào)主體是一個(gè)二次元少女,二次元少女穿著校服。旁邊站著一個(gè)男生深情地看著她。海報(bào)標(biāo)題上寫著“AI校園”。下方有一行小字“開(kāi)心上學(xué)”。

3)高難度:

提示詞:

這是一張二次元海報(bào)。海報(bào)主體是一個(gè)二次元少女,二次元少女穿著水手服。旁邊站著一個(gè)男生深情地看著她。海報(bào)標(biāo)題上寫著“AI校園”,這幾個(gè)字把少女給包圍起來(lái)。下方有一行小字“開(kāi)心上學(xué)”。

問(wèn)題小結(jié):

1.同樣會(huì)生成一些不干不凈的文本內(nèi)容。

2.人物細(xì)節(jié)BUG。比如“三只手”、“兩個(gè)人物的物理大小關(guān)系錯(cuò)誤”。

參考能力

此外,即夢(mèng)提供了“圖片參考”能力,可惜目前僅能“主體”、“人物長(zhǎng)相”,暫時(shí)不支持其余的參考能力。

這邊嘗試了一下,能夠把主體生成進(jìn)去,但是并不能讀取到文本指令,無(wú)法發(fā)揮2.1的新特性。

以上是在同樣的提示詞下,分別帶上與不帶上“主體參考”功能的效果。

小結(jié)

整體測(cè)試下來(lái),可以總結(jié)出其優(yōu)點(diǎn)有:

1.大部分文字內(nèi)容、文字位置、文字樣式要求都能識(shí)別并準(zhǔn)確執(zhí)行。像是漫畫類的內(nèi)容, 能夠準(zhǔn)確地進(jìn)行執(zhí)行。

2.大部分位置要求,能夠準(zhǔn)確識(shí)別并執(zhí)行。甚至能夠生成一些與主體有互動(dòng)的樣式。

而其缺點(diǎn)有:

1.文字生成方面偶爾存在“文字錯(cuò)誤”、“文字樣式錯(cuò)誤”、“文字位置錯(cuò)誤”等問(wèn)題。

2.AI繪畫的常見(jiàn)問(wèn)題,存在畫面BUG,比如人物手指、多人物位置關(guān)系等問(wèn)題。

3.無(wú)法結(jié)合已有主體進(jìn)行“帶文字”的圖片,這導(dǎo)致在“有明確需要加入到圖片上”的場(chǎng)景上還無(wú)法發(fā)揮作用,比如帶著商品信息的“商品介紹圖”。

圖片來(lái)源于百度

二、這個(gè)能力意味著什么

如果按是否有文字對(duì)圖片進(jìn)行劃分,我們可以得到兩個(gè)類型。

1.不帶文字的圖片:這類圖片往往使用面很窄,缺乏文字信息的補(bǔ)充,除了事物外觀的展示外,僅僅能傳遞類似于情感、氛圍等的抽象信息。這使得不帶文字的圖片較難在廣告宣傳、社交媒體、雜志封面等場(chǎng)景上應(yīng)用,往往只能在藝術(shù)展示相關(guān)的場(chǎng)景上使用。

2.帶文字的圖片:由于補(bǔ)充了文字信息,帶文字的圖片能夠更直觀地傳達(dá)信息,可用于廣告宣傳、社交媒體、雜志封面、漫畫、連環(huán)畫等場(chǎng)景上。相比起不帶文字的圖片,具有更廣的應(yīng)用范圍。

因此,即夢(mèng)的圖片模型v2.1意味著將“AI圖片”能力的應(yīng)用場(chǎng)景進(jìn)行了拓展,越來(lái)越多的業(yè)務(wù)能受益于這項(xiàng)能力。

在以前,還需要美術(shù)去剪輯和拼接AI生成的圖片元素,以制作帶文字的圖片,但現(xiàn)在圖片AI能一步到位,直接生成帶有文字的圖片素材,可以直接繞過(guò)美術(shù)進(jìn)行物料產(chǎn)出。妥妥的“AI取代員工的案例”??!

同時(shí),這也意味著即夢(mèng)搶占圖片AI工具市場(chǎng)的野心。雖然還無(wú)法完全覆蓋所有“文字圖片制作”場(chǎng)景,雖然還有不少文字生成的細(xì)節(jié)問(wèn)題,但是這些問(wèn)題必定會(huì)隨著后續(xù)的版本更新而被解決,低級(jí)美術(shù)工種的地位岌岌可危矣!

三、從即夢(mèng)的圖片AI能力,聊聊圖片AI工具的未來(lái)

個(gè)人覺(jué)得,圖片AI工具的存在是為了“更好地滿足圖片制作需求”,因此才會(huì)推出各種能力,用以輔助用戶產(chǎn)出“更能滿足需求”的圖片。因此,即夢(mèng)的圖片AI能力

而就好像《淺談AI視頻廠商都在卷的拓展能力》中提到的“點(diǎn)、線、面”概念一樣。

圖片AI工具也同樣適用于“點(diǎn)、線、面”的分層邏輯。

1.圖片制作需求的“點(diǎn)”:

圖片制作流程也可分為“尋找靈感、制作草稿、收集素材、合并成稿”。(修改返工穿插在每個(gè)環(huán)節(jié)上,此處不贅述,哈哈o(╥﹏╥)o悲慘的乙方。)

1)尋找靈感:指制作者需要通過(guò)收集靈感,清楚知道“自己要做什么的圖片”。

2)制作草稿:圖片的線稿,需要?jiǎng)澐謨?nèi)容元素的布局、色塊區(qū)域分布等內(nèi)容。

3)收集素材:指組成成稿的畫面素材元素,比如標(biāo)題、人物、物品、背景等。

4)合并成稿:指將收集到的素材進(jìn)行組裝,并進(jìn)行合適地調(diào)整,最終形成一份完整的圖片成品。

AI生成圖片功能在大部分場(chǎng)景上滿足“制作草稿”、“收集素材”環(huán)節(jié)的需求,但是要生成最終能使用的成品,還是需要將多個(gè)素材“合并成稿”這一步驟。(除開(kāi)部分原畫生成場(chǎng)景。而且這部分原畫生成場(chǎng)景需要AI生成的準(zhǔn)確性非常高,生成后沒(méi)有任何細(xì)節(jié)修改需求。)

當(dāng)然,圖片制作需求的滿足不能僅僅依賴“圖片生成AI”,目前市面上不少AI生圖平臺(tái)還提供了額外的單“點(diǎn)”需求工具,包括但不限于:

1)局部重繪:可與圈選一部分區(qū)域,對(duì)一部分區(qū)域進(jìn)行AI重新生圖,從而實(shí)現(xiàn)對(duì)AI生成結(jié)果的修改。比如修改衣物、表情、背景。

截圖為星流的局部重繪能力。

2)高清放大:通過(guò)AI技術(shù)對(duì)畫面內(nèi)容進(jìn)行高清化處理,使得低畫質(zhì)的畫面也能變成高畫質(zhì)。

截圖為星流的高清放大。

3)智能擴(kuò)圖:對(duì)畫面內(nèi)容進(jìn)行擴(kuò)充,使得圖片能夠形成指定尺寸的畫面內(nèi)容。

截圖為百度的智能擴(kuò)圖。

4)裁剪:圖片編輯的基礎(chǔ)能力,在原有圖片的基礎(chǔ)上進(jìn)行尺寸調(diào)整。

5)智能擦除:局部重繪的變種用法,能夠消除掉涂抹區(qū)域的主體。

截圖為豆包的智能擦除。

6)智能去背景:自動(dòng)識(shí)別并去掉背景。

截圖為豆包的智能去背景。

……

這些能力在豆包、百度、星流等圖片AI平臺(tái)上都有出現(xiàn)。

可以看到,目前各大主流的AI圖片工具平臺(tái),除了主推的圖片生成AI能力外,還會(huì)輔助上各種各樣的單點(diǎn)“圖片AI工具”。因?yàn)椋?/p>

1)“圖片生成AI”是直接從“靈感”到“草稿”/“素材”,由于生成式AI的準(zhǔn)確不足,完全由AI生成完整成稿的可能性不高。

2)目前生成式AI大部分情況下僅僅滿足“制作草稿”、“收集素材”環(huán)節(jié)的需求,還需要一定的工具來(lái)滿足“合并成稿”環(huán)節(jié)的需求,比如前文提到的裁剪、外擴(kuò)、高清化等能對(duì)圖片核心內(nèi)容以外事物進(jìn)行編輯的工具,又比如能夠編輯圖片文本內(nèi)容的工具。

所以,為了保證能滿足從“靈感”到“成品”的制作輔助,AI圖片工具平臺(tái)不僅僅需要提供“圖片生成AI”,還需要提供各式各樣工具能力“點(diǎn)”,以最大化滿足用戶的圖片制作訴求。

2.圖片制作需求的“線”:

當(dāng)圖片制作的單“點(diǎn)”能力積累到一定量級(jí)時(shí),就是時(shí)候串聯(lián)起各個(gè)點(diǎn)來(lái),形成滿足一條“線”需求的能力。不然用戶來(lái)回在多個(gè)能力點(diǎn)之間跳轉(zhuǎn),會(huì)存在“物料上傳/下載”、“參數(shù)配置”、“功能跳轉(zhuǎn)”等行為上的“效率損耗”。

目前常見(jiàn)的“線”的形式有:

1)畫布功能:

這個(gè)功能在即夢(mèng)首頁(yè)就可看到,名為“智能畫布”。

“智能畫布”以“圖片編輯器”為基礎(chǔ),整合了圖片編輯的所有基礎(chǔ)能力,比如裁剪、畫布尺寸、文字添加、畫筆、圖層管理等等。

在此基礎(chǔ)上,整合進(jìn)上面提到的AI工具能力“點(diǎn)”。在用戶進(jìn)行圖片處理的過(guò)程中,在任何需要的場(chǎng)景下,都能調(diào)用所需的AI功能能力“點(diǎn)”,無(wú)需在多個(gè)功能之間來(lái)回跳轉(zhuǎn)、傳遞物料,從而提高其中的工作效率。

如此,“畫布功能”就成了所有AI工具能力“點(diǎn)”的載體。在畫布上,各個(gè)工具就能形成“點(diǎn)連成線”的效果,以形成“一條龍式”滿足圖片制作需求的效果。

2)工作流:

事實(shí)上,并非所有圖片制作需求都是從“靈感”開(kāi)始的。存在部分需求是存在“初始物料”,需要在初始物料的基礎(chǔ)上加工成成品。

最直接的例子就是電商宣傳海報(bào)制作。電商制作宣傳海報(bào)的時(shí)候,經(jīng)常都是已經(jīng)有現(xiàn)成的商品圖片,需要經(jīng)過(guò)美術(shù)后期P上背景、文字標(biāo)語(yǔ)等內(nèi)容。

假設(shè)在“電商宣傳海報(bào)制作”場(chǎng)景下,有一個(gè)批商品圖片,需要生成該商品的宣傳海報(bào)。這個(gè)需求涉及到的AI功能“點(diǎn)”有:

a.圖片高清化:不同商品圖片的分辨率不同,需要統(tǒng)一其分辨率,以便在海報(bào)上顯示。

b.圖片背景清除:部分商品圖片可能會(huì)存在背景,為了展示在海報(bào)上,需要清除掉其中的背景。如果背景復(fù)雜,還需要能夠識(shí)別到畫面的主體內(nèi)容,自動(dòng)進(jìn)行背景清除(以免需要人肉一個(gè)個(gè)進(jìn)行點(diǎn)擊)。

c.標(biāo)題藝術(shù)字生成:標(biāo)題是海報(bào)的核心,需要通過(guò)文字內(nèi)容輔助引導(dǎo)消費(fèi)者,從而達(dá)成營(yíng)銷目的。

d.物料組裝:需要在一張固定的背景上組合“商品圖”、“標(biāo)題藝術(shù)字”,以生成最終的目標(biāo)成品圖片。

如果使用畫布功能,仍然需要繁瑣的操作,因此一個(gè)能夠?qū)ⅰ皥D片高清化”、“圖片背景清除”、“標(biāo)題藝術(shù)字生成”、“物料組裝”這些能力點(diǎn)串聯(lián)起來(lái)的工作流便能起到很高的提效作用。用戶只需要對(duì)工作流進(jìn)行內(nèi)容輸入,即可獲得所需的內(nèi)容輸出。

工作流的成立的前提條件是“業(yè)務(wù)流程高度重復(fù)且標(biāo)準(zhǔn)化”,然而這樣的業(yè)務(wù)場(chǎng)景十分罕見(jiàn),而且一般只會(huì)出現(xiàn)在業(yè)務(wù)體量較大的公司上。

目前較為知名的工作流工具就是comfyui,其通過(guò)可視化的方式支持配置各個(gè)不同節(jié)點(diǎn)的處理邏輯,實(shí)現(xiàn)圖片生成需求的精準(zhǔn)控制和可靠復(fù)現(xiàn)??梢越Y(jié)合需要在comfyui中構(gòu)建所需的“能力點(diǎn)”,然后構(gòu)筑一條的工作流的“線”。

圖片來(lái)自于百度百科

然而comfyui對(duì)于美術(shù)來(lái)說(shuō)過(guò)于硬核,能用得起來(lái)的人并不多。因此一些AI圖片工具平臺(tái)也開(kāi)始出現(xiàn)了“工作流”能力,比如星流。

其在畫板的基礎(chǔ)上,提供了由官方/用戶創(chuàng)建的工作流,允許用戶能夠通過(guò)工作流快速使用多個(gè)“能力點(diǎn)”,只需要提供輸入的圖片和參數(shù),就能快速生成所需的圖片,免去了在多個(gè)能力之間的跳轉(zhuǎn),使得復(fù)雜的生成需求,能一條龍地被滿足。

3)生成式AI:

隨著AI生圖技術(shù)的發(fā)展,很多AI能直接生成高質(zhì)量的圖片了,并不再需要人工進(jìn)行二次修改。因此,可以說(shuō)某種程度上,生成式AI也能滿足一條“線”的需求。

在以往,生成式AI可能只能滿足了“不帶文字的圖片”的“從靈感到成稿”這條線的需求。但如今,即夢(mèng)的v2.1出來(lái)后,“帶文字的圖片”的“從靈感到成稿”這條線的需求也能一定程度上被滿足了。

雖然目前v2.1還不是很成熟,也并不能完美地生成成稿。但是隨著AI模型的持續(xù)成長(zhǎng),未來(lái)也是會(huì)解決這個(gè)問(wèn)題的。

……

3.圖片制作需求的“面”:

所謂“面”,即通過(guò)同時(shí)滿足多個(gè)工作流的需求,從而形成一整套“圖片制作行業(yè)解決方案”。這是廠商的最終未來(lái),即對(duì)整個(gè)行業(yè)的顛覆與壟斷。

不過(guò)目前談這個(gè)未免太久遠(yuǎn),大部分工具都還在進(jìn)行“能力點(diǎn)與線”的構(gòu)建當(dāng)中。

三、小結(jié)

整體上講,即夢(mèng)的v2.1圖片生成模型意味著其對(duì)“AI圖片”能力應(yīng)用場(chǎng)景的拓展,意味著其從“單點(diǎn)需求滿足”到“單線需求滿足”的提升。

雖然在目前v2.1還存在不少問(wèn)題,比如生成“文字錯(cuò)誤”、“文字樣式錯(cuò)誤”、“文字位置錯(cuò)誤”、“圖片BUG”、“主體參考無(wú)法使用”,但是如果隨著后續(xù)版本的迭代,這些問(wèn)題被逐一解決,且穩(wěn)定持續(xù)構(gòu)建AI工具能力的“點(diǎn)-線-面”,即夢(mèng)將會(huì)在“圖片AI工具領(lǐng)域”領(lǐng)先其他競(jìng)品一大截。

本文由人人都是產(chǎn)品經(jīng)理作者【檸檬餅干凈又衛(wèi)生】,微信公眾號(hào):【檸檬餅干凈又衛(wèi)生】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 使用幾版ai畫圖,還是有點(diǎn)傻瓜式接收指令,希望改進(jìn)

    來(lái)自中國(guó) 回復(fù)