國內各大AI產品功能橫向對比及使用建議(2/3):圖片生成 & 圖片處理篇
本文旨在深入分析國內各大AI產品在“圖片生成 & 圖片處理”領域的功能對比,幫助用戶更好地理解各產品特性,并作出適合自己需求的選擇。
2022年OpenAI發(fā)布了ChatGPT3.5,標志著以AI大模型為主體的人工智能時代到來。自此之后,國內各個傳統(tǒng)大廠、AI獨角獸紛紛下場,各類AI大模型及其對應的產品紛紛如雨后春筍般問世。
在帶來行業(yè)繁榮的同時,也為普通用戶帶來了不少選擇的困惑。究竟國內各大AI產品有什么差異?我們應該如何選擇?
要對比各大AI產品,我們可以粗略分為內、外兩層,內在是其內核的大模型智能程度,外在是各團隊研發(fā)的產品功能。對于大模型,市面上已有不少報告進行測評。但對于外在產品功能的梳理對比,似尚未有過多關注。
有感于此,我計劃從對“文本生成”、“圖片生成 & 圖片處理”、“智能體”三個當下AI最為熱門的領域入手,梳理目前國內各大AI產品功能的橫向對比。
當然,我的主要關注點是“有無”,而非“優(yōu)劣”,即我主要著眼在某一項功能在各大AI產品上是“有”還是“沒有”,而不會具體比對該功能的具體表現(xiàn)“好”還是“不好”,因此也不會涉及到功能的具體評分。
我的目標是通過對國內各大AI產品功能橫向對比,為不同使用場景、使用訴求的人群提供產品選擇上的建議。
橫向對比采集時間:2024年8月(目前設想可能每3個月更新對比一輪,并視情況是否更新使用建議)。如果有朋友們感興趣但我沒有涵蓋的AI產品,或者對于本文的任何批評建議,歡迎在評論區(qū)里留言。
本篇是這個系列的第二篇——“圖片生成 & 圖片處理”篇
第一篇——文本生成篇見:國內各大AI產品功能橫向對比及使用建議(1/3):文本生成篇
一、【對比產品及項目】
嚴格來說,“圖片生成”和“圖片處理”是兩個獨立的領域。前者是通過給AI輸入文字或圖片,讓AI生成新的圖片(即俗稱“文生圖”、“圖生圖”);后者是對已有的圖片,通過AI能力進行各類調整處理。
但從產品視角來看,二者又有明確的聯(lián)系,畢竟,AI生成圖片后進行處理,是一個很流暢的操作。
并且,從用戶視角來看,如果有涉及“圖片”的相關工作,那大概率是“圖片生成”和“圖片處理”都有所涉及。因此,我們會將二者放在一起進行對比。
關于“圖片生成 & 圖片處理”領域的產品對比,入圍標準是:
- 必須是通用的圖片產品,意味著只針對某個特定圖片領域(如:海報、漫畫、二維碼、頭像)的產品不在此列。
- 必須是有獨立的AI大模型部署,意味著市面上那些包殼類的AI產品不在此列(比如通過封裝Midjourney來提供服務的產品)。
- 圖片生成:有可以設置生成圖片具體參數(shù)的能力,意味著僅僅是通過對話就能簡單生成圖片的產品(在前面“文本生成”領域中,我們就有“生成圖片”的功能項梳理)不在此列。
- 圖片處理:必須是可以單獨上傳圖片進行處理,意味著僅僅是對生成圖片進行處理的產品,只會歸入“圖片生成”的一部分功能(這一條實際是針對“豆包”進行區(qū)分,它的圖片處理功能就是只能對其生成的圖片進行操作,說實在的有點迷)。
基于以上標準,在“圖片生成 & 圖片處理”領域的入圍產品有:
(注:SD即Stable Diffusion,是一套開源的AI圖片生成工具,支持安裝多個的生圖大模型。)
對比的項目主要由以下類別組成:
- 免費使用條件:AI生成圖片的計算成本遠高于生成文本,因此各家提供的AI生成圖片服務都是“有條件免費”,我們會將各家的具體使用條件梳理出來。
- 使用引導:包括功能引導、Prompt庫等內容,反映的是產品的“易上手”程度。
- 詳細參數(shù)設置:與“文本生成”不同,“圖片生成”的效果受具體的參數(shù)設置影響較大。因此,詳細的參數(shù)設置能力反映了產品的“可調整性”。
- 高級功能:如ControlNet、LoRA訓練等,反映的是產品在高級功能上的豐富度和深度。
- 圖片處理主流功能:主要包括圖片放大、擴展、疊加、摳圖等主流的AI圖片處理功能。
二、【完整對比結果】
基于上述產品和項目,完整橫向對比結果如下:
圖片生成:
圖片處理:
三、【結果解析】
1. 簡易使用型:元寶、豆包、可靈AI
- 類型特點:通過輸入Prompt進行圖片生成,但不具備“設置圖片風格(并非提示詞,而是指定不同生圖大模型)”及其他更高級功能。
- 適用人群:對于“生成圖片”訴求接近“有圖即可”的人群。
2. 類MJ型:江城洛神、通義萬相、文心一格
- 類型特點:具備更多的生成圖片設置能力,使用習慣上類似Midjourney,但不支持諸如ControlNet的高級功能。
- 適用人群:對于“生成圖片”有一定的質量要求,希望控制其大體風格走向,但又沒有科學上網(wǎng)條件的人群。
3. 類SD型:智影、WHEE+美圖設計室、堆友
- 類型特點:具備更多高級功能(如ControlNet、LoRA模型訓練),能力及交互界面接近SD WebUI。
- 適用人群:對“生成圖片”有精細化調整的訴求,或有意在“生成圖片”領域進行深耕的人群。
四、【整體使用建議】
對于“圖片生成 & 圖片處理”領域,因此其學習廣度、深度和難度,都要比“文本生成”要更高。因此,我會統(tǒng)一推薦使用順序是:先使用“文心一格”,如果有進一步想深入研究,則再切換至“堆友”。
首先不建議使用“簡易使用型”的產品。倒不是說他們能力不行,主要是考慮到入門和使用,他們都并非最好選擇。最典型的體現(xiàn)就是關于“風格”的設置。眾所周知,畫面“風格”是一張圖片最基本的屬性。
雖然“簡易使用型”的產品也是可以通過在Prompt里面進行風格描述來實現(xiàn),但是進階后還是要切換到“選擇生圖模型”。因此從一開始上手就應該建立“選擇生圖模型”來控制風格的認知。此外,從易用性來看,也不及可以直接選擇風格的產品。
然后就是“類MJ型”的產品,它們在最基礎的“文生圖”領域都較易上手,既能滿足日常需要,又能低門檻上手。而具體到哪一款產品,則首推“文心一格”,原因無他,就是因為它無論是圖片生成還是圖片處理,功能都相對齊全。
最后就是想進一步深入研究AI生成圖片,那必須會走到“學習Stable Diffusion”的階段,此時推薦產品更多則是要考慮其功能是否足夠全面。以此為標準,那么綜合功能最齊全且免費使用條件簡單的“堆友”就成為不二之選了。
五、【附:部分產品特色功能截圖】
文心一格將提示詞中的部分內容結構化(畫面風格、修飾詞、藝術家)
通義萬相圍繞電商場景打造了相關的特色功能
騰訊智影圍繞“視頻+圖片”打造了一系列功能
WHEE全面的AI生圖能力
堆友友好且接近SD WebUI的操作界面
作者:產品經理崇生,公眾號:崇生的黑板報
本文由 @產品經理崇生 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自 unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
本系列第三篇已發(fā)表,歡迎朋友們關注
國內各大AI產品功能橫向對比及使用建議(3/3):智能體篇
http://22none.com/share/6102480.html
完整對比表請關注公眾號【崇生的黑板報】,發(fā)送“AI對比”獲取