AIGC | 圖像生成領(lǐng)域,Prompt的七個(gè)缺陷

2 評(píng)論 3010 瀏覽 7 收藏 8 分鐘

在向AI模型傳遞指令的過程中,我們常常需要借助Prompt這一形式,那么Prompt作為載體,是否存在一定的缺陷呢?本文作者討論了圖像生成領(lǐng)域里Prompt的七個(gè)缺陷,一起來(lái)看看吧。

Prompt是向AI模型傳遞指令的核心形式,隨著AI繪畫從藝術(shù)領(lǐng)域向設(shè)計(jì)領(lǐng)域深入,創(chuàng)作訴求趨于嚴(yán)謹(jǐn)、精確,Prompt作為創(chuàng)作意圖的重要載體,一些缺陷日益凸顯,對(duì)生成結(jié)果的可控性、可用性有很大影響。

一、寫作技能

創(chuàng)作者要將大腦中構(gòu)思的畫面通過文字表達(dá)出來(lái),畫面是三維的、立體的,而文字卻是一維的、線性的。

對(duì)于較為復(fù)雜的創(chuàng)作意圖,這個(gè)轉(zhuǎn)化過程極具挑戰(zhàn)性、技巧性,依賴反復(fù)書寫帶來(lái)的經(jīng)驗(yàn)累積或是專門的學(xué)習(xí)。

二、文本特性

同一組用詞,同一句話,受到語(yǔ)境、文化、群體共識(shí)等客觀因素的影響,可能存在多重含義,面對(duì)文本的多義性,模型理解很容易發(fā)生偏差,生成內(nèi)容無(wú)法切中創(chuàng)作者的真實(shí)意圖。而創(chuàng)作者要基于錯(cuò)誤反饋不斷對(duì)導(dǎo)致歧義的內(nèi)容進(jìn)行替換、校正。

三、字?jǐn)?shù)限制

盡管多一些描述可以給模型更多細(xì)節(jié),但當(dāng)前AI模型對(duì)字?jǐn)?shù)始終存在一個(gè)模糊的理解“上限”,超過“上限”后的內(nèi)容,要么理解錯(cuò)亂,要么直接無(wú)視,所以創(chuàng)作平臺(tái)往往對(duì)Prompt字?jǐn)?shù)加以限制,這就導(dǎo)致更多的創(chuàng)意想法無(wú)法被完整表達(dá)。

四、范式規(guī)則

相比口語(yǔ)化表達(dá),模板化的描述指令更容易被模型理解而且更穩(wěn)定,具有長(zhǎng)期創(chuàng)作需求的創(chuàng)作者,需要學(xué)習(xí)并熟練掌握基于技術(shù)邏輯反推出的的指令公式(如:畫面主體+場(chǎng)景+細(xì)節(jié)+風(fēng)格修飾),還有控制各類權(quán)重的命令參數(shù)(如:-seed;-chaos;-::;—iw等)。

五、作用關(guān)系

對(duì)于不是描述主體的指令,往往難以判斷它是否已對(duì)畫面產(chǎn)生影響,因此我們看到“絕美、完美、超美”、“大師畫質(zhì)、超高畫質(zhì)、頂級(jí)畫質(zhì)”經(jīng)常出現(xiàn)在一條Prompt中,冗余甚至相互對(duì)立。如需調(diào)整,則要通過刪A留B,刪B留A的方式反復(fù)比對(duì)來(lái)定位修改點(diǎn)。

六、細(xì)節(jié)控制

尤其是設(shè)計(jì)師的創(chuàng)作場(chǎng)景,對(duì)形式、位置、比例、層次、關(guān)系等要素的處理更加專業(yè)嚴(yán)謹(jǐn),文字型指令可以做到但書寫成本極高,用戶能否寫出“畫面偏左四分之三居中位置,一條高一百像素的金魚”?模型又能否對(duì)此精準(zhǔn)執(zhí)行?目前看,依靠Prompt進(jìn)行精細(xì)化控制并不現(xiàn)實(shí)。

七、生成預(yù)期

除使用“創(chuàng)作相似”外,創(chuàng)作者生成前對(duì)生成結(jié)果不可預(yù)測(cè),生成過程又類似于黑箱,所以大家往往先生成幾張,看看什么效果,找到符合預(yù)期的那張?jiān)倮^續(xù)深入。這個(gè)交互關(guān)系中最大的問題在于反饋的高延遲,造成了過高的嘗試成本

Prompt的這些特點(diǎn)或問題,讓人不得不想起PC系統(tǒng)早期的DOS命令行界面:需要掌握語(yǔ)言范式、缺乏提示反饋、沒有快捷操作、不直觀等問題,讓很多計(jì)算機(jī)初學(xué)者望而卻步。

以上為輸入環(huán)節(jié),而在模型一側(cè),Prompt的解碼過程又會(huì)丟失一部分信息,使得創(chuàng)作者大量意圖指令無(wú)法精準(zhǔn)、有效的傳遞給生成模型,最終得到一個(gè)錯(cuò)誤的或是可用性較低的生成結(jié)果,人們感到挫敗并對(duì)技術(shù)能力產(chǎn)生質(zhì)疑,其實(shí),生成模型的能力往往由于語(yǔ)義理解的限制,并沒有得到充分發(fā)揮。

如果經(jīng)常使用AI繪畫平臺(tái),可能對(duì)這些Prompt功能并不陌生:一鍵復(fù)制、創(chuàng)作相似、靈感推薦、智能補(bǔ)全、咒語(yǔ)大全、咒語(yǔ)生成器、創(chuàng)作手冊(cè)、詞包、撰寫教程等等。這些功能在一定程度上降低了Prompt的撰寫成本,尤其針對(duì)體驗(yàn)型、嘗鮮型的用戶,創(chuàng)作效率和質(zhì)量均有提升,但對(duì)帶有明確應(yīng)用場(chǎng)景的設(shè)計(jì)師群體來(lái)說,上述問題依然存在。

那Prompt指令的問題如何解決?又如何讓操作體驗(yàn)真正做到“平民化”呢?

顯然技術(shù)側(cè)的進(jìn)展更快,涂抹、疊加、擴(kuò)展等二次編輯能力,以Lora為代表的微調(diào)模型,還有Controlnet技術(shù),支持邊緣檢測(cè)、草圖處理、姿勢(shì)識(shí)別等前沿黑科技,都在試圖融合更多其他模態(tài)的意圖信息,與Prompt形成互補(bǔ),讓生成結(jié)果更加精準(zhǔn)可控。

說回體驗(yàn)層面,以Prompt為核心的創(chuàng)作范式可能并非終極形態(tài),這方面的探索尚未達(dá)成共識(shí)。我想,在PC時(shí)代,圖形用戶界面基于出色的交互體驗(yàn),快速“取代”了DOS命令行一直影響至今,即使進(jìn)入AIGC時(shí)代,答案也許仍在其中。

本文由 @設(shè)計(jì)來(lái)電 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. Prompt的使用,是有很高專業(yè)技能門檻的,普通化、平民化之路之前,反而是商業(yè)化先行

    來(lái)自江蘇 回復(fù)
    1. 細(xì)說專業(yè)門檻

      來(lái)自北京 回復(fù)