盤(pán)點(diǎn)2023年Stable Diffusion GUI工具及其創(chuàng)作生態(tài)
在AI繪畫(huà)領(lǐng)域,作為一款可以本地化的大模型,Stable Diffusion一直受到大家的喜愛(ài)。但很多人都是僅使用大模型和lora,對(duì)其生態(tài)了解甚少,而SD生態(tài)里面,其實(shí)也有不少好的工具。
正文開(kāi)始之前,這里先用一句話概括性的介紹一下Stable Diffusion:它是一種基于深度學(xué)習(xí)的文本到圖像的生成模型。能夠根據(jù)文本描述創(chuàng)造出豐富多樣且具有高質(zhì)量和細(xì)節(jié)的圖像。
它的生成模型是通過(guò)大規(guī)模圖像及其描述的數(shù)據(jù)集訓(xùn)練而成,所以生成的圖像在保持高創(chuàng)造性的同時(shí),還具有較高的高分辨率。另外因其開(kāi)源性質(zhì)和強(qiáng)大的功能在AI繪畫(huà)領(lǐng)域具有重要的地位。 具體的原理這里就不展開(kāi)講了,我們只需要知道它是一種能夠通過(guò)文本描述生成圖像的AI繪畫(huà)工具就夠了。
一、Stable Diffusion的創(chuàng)意工坊
2023年是AI相關(guān)技術(shù)井噴式爆發(fā)的一年,在AI繪畫(huà)領(lǐng)域同樣發(fā)展迅猛,市面上形形色色的操作界面,看的大家眼花繚亂。
Stable Diffusion作為AIGC領(lǐng)域的領(lǐng)頭羊,今天我們就來(lái)盤(pán)點(diǎn)一下以它為基礎(chǔ)衍生而來(lái)的應(yīng)用。
盤(pán)點(diǎn)之前先將市面上的應(yīng)用進(jìn)行一下分類(lèi),可以簡(jiǎn)單的把它們分成兩個(gè)陣營(yíng):一邊是廣為人知、處于市場(chǎng)主導(dǎo)地位的“大咖”,另一邊則是那些較少人知,但同樣充滿創(chuàng)意的“小眾選手”。
二、有意思的“小眾選手”
首先來(lái)介紹一下Stable Diffusion背后的公司Stability AI推出的幾款應(yīng)用:
1?? Clipdrop
2023年3月Stability AI為了擴(kuò)大Stable Diffusion模型的安裝,收購(gòu)了Clipdrop背后的母公司Init ML。Clipdrop是一個(gè)利用AI來(lái)自動(dòng)幫助用戶完成照片編輯的應(yīng)用,截至到收購(gòu)之前已經(jīng)積累了1500萬(wàn)用戶。用戶可以通過(guò)Clipdrop自動(dòng)提高低分辨率圖像的清晰度,裁剪照片中的個(gè)別元素、刪除背景等。
stability AI將其收購(gòu)后,對(duì)Clipdrop進(jìn)行了一系列升級(jí),把SD(Stable Diffusion的簡(jiǎn)稱)的一些功能整合到了平臺(tái)上。目前提供包括文字消除、背景移除和替換、圖像放大、重新照明、物體移除、草圖創(chuàng)建、圖像變體和擴(kuò)展,以及使用新模型SDXL進(jìn)行圖像生成等多項(xiàng)功能,而且這些都可以免費(fèi)使用,無(wú)需注冊(cè)賬號(hào)。當(dāng)然對(duì)于那些需要更多服務(wù)的用戶,平臺(tái)也提供了付費(fèi)訂閱方案。
2?? Dream Studio
Dream Studio是由Stability AI官方推出提供算力的積分付費(fèi)平臺(tái),每個(gè)新賬戶贈(zèng)送25積分,積分價(jià)格是1000積分10刀,大約可以生成5000張默認(rèn)設(shè)置的圖片,相比于傳統(tǒng)的訂閱模式,這種支付方式更加靈活友好。
對(duì)于不同的模型,積分消耗也有所不同。
目前有兩種模型可供選擇:
SDXL v1.0模型生成步數(shù)40需要0.91積分;
SD v1.6模型生成步數(shù)40需要1.07積分。
Dream Studio整體的界面設(shè)計(jì)極為友好,還提供了畫(huà)布編輯功能,可以更加方便的使用局部填充和圖像擴(kuò)展。
3?? StableSwarm UI
最后一個(gè)是由官方推出的GUI是與SDXL(Stable Diffusion的最新優(yōu)化版本:Stable Diffusion XL,目前更新到了v1.0)同時(shí)發(fā)布的StableSwarm UI。乍一看,它的界面似乎與Dream Studio高度相似,但實(shí)際上它們之間還是有所區(qū)別的。
StableSwarm UI的獨(dú)特之處在于,它實(shí)質(zhì)上是一個(gè)以Comfy UI作為后端服務(wù)的前端界面。根據(jù)官方在其周刊中的介紹,Swarm UI結(jié)合了Comfy UI的強(qiáng)大功能、Web UI的用戶友好性以及Stable Studio的高品質(zhì)體驗(yàn),它的目的是將這三者的優(yōu)勢(shì)融合在一起。當(dāng)然,這只是官方的宣傳語(yǔ),水分還是挺大的,實(shí)際的使用體驗(yàn)差強(qiáng)人意,還有很大的提升空間,希望未來(lái)能有更多的改進(jìn)。
4?? InvokeAI
目前InvokeAI 已經(jīng)更新到了3.1版本,全面支持了SDXL新模型,并且推出了與Comfy UI類(lèi)似的節(jié)點(diǎn)式工作流界面。結(jié)合其本身就具備的畫(huà)布功能,使重繪和圖像擴(kuò)展變得更加方便。
5?? SD.Next
SD.Next是從Web UI衍生出來(lái)的產(chǎn)品,其優(yōu)勢(shì)在于它不僅支持Stable Diffusion 1.5/2.1/XL模型,還兼容了LCM、Segmind、Kandinsky、Pixart-α、Würstchen、aMUSEd、DeepFloyd IF、UniDiffusion、SD-Distilled、BLiP Diffusio、etc等多種擴(kuò)散模型。此外,它適用于各種運(yùn)行環(huán)境,并且擁有非常簡(jiǎn)潔友好的UI界面和各種主題。
6?? voltaML-fast-stable-diffusion
voltaML-fast-stable-diffusion是一個(gè)開(kāi)源項(xiàng)目,安裝簡(jiǎn)單,界面簡(jiǎn)潔干凈,非常適合新手學(xué)習(xí)。并且有文檔化的API接口,在速度上也有不小的提升。
7?? stable diffusion online
Stable Diffusion Online是一個(gè)提供在線免費(fèi)的網(wǎng)站。它不僅提供了一種簡(jiǎn)單直觀的操作界面,還特別增加了Web UI的界面設(shè)計(jì),方便那些更喜歡或更習(xí)慣Web UI的用戶。此外網(wǎng)站還提供了ControlNet提示詞生成器和豐富的提示詞庫(kù)等功能。網(wǎng)站完全免費(fèi)使用,無(wú)需注冊(cè)賬戶,特別適合初學(xué)者和對(duì)此領(lǐng)域感興趣的新手嘗試。
<h3″>8?? Hugging Face
Hugging Face對(duì)經(jīng)常使用SD的朋友應(yīng)該都很熟悉,大家應(yīng)該或多或少都在上面下載過(guò)各種模型,這里簡(jiǎn)單介紹一下它:
Hugging Face起初是一家致力于聊天機(jī)器人的初創(chuàng)公司,因其在GitHub上開(kāi)源的Transformers庫(kù)(預(yù)訓(xùn)練語(yǔ)言庫(kù)),意外地在機(jī)器學(xué)習(xí)社區(qū)獲得了廣泛的關(guān)注和贊譽(yù)。
現(xiàn)在該平臺(tái)已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域的核心,擁有超過(guò)100000個(gè)預(yù)訓(xùn)練模型和10000個(gè)數(shù)據(jù)集,大大降低了機(jī)器學(xué)習(xí)模型的門(mén)檻。它的開(kāi)放文化吸引了全球廣泛的用戶和業(yè)界專(zhuān)家參與其中。
在國(guó)內(nèi)Hugging Face的應(yīng)用也十分廣泛,特別是在NLP(自然語(yǔ)言處理)工程師中,熟悉其Transformer庫(kù)已成為標(biāo)準(zhǔn)要求。該平臺(tái)為初學(xué)者提供了易于上手的數(shù)據(jù)集和模型,簡(jiǎn)化了機(jī)器學(xué)習(xí)的入門(mén)過(guò)程。
正是因?yàn)樗_(kāi)放的文化,目前平臺(tái)匯集了眾多大神部署的各類(lèi)模型,這些模型可以免費(fèi)使用,體驗(yàn)非常方便。唯一的小缺陷在于平臺(tái)太過(guò)于熱門(mén),有些時(shí)候需要較長(zhǎng)的等待排隊(duì)時(shí)間。
9?? Playground
最后一個(gè)體驗(yàn)不錯(cuò)的就是Playground Ai,用戶可以免費(fèi)使用Stable Diffusion模型,每天最多可以免費(fèi)創(chuàng)建1000張圖像,并且允許商用。同時(shí)平臺(tái)也提供了付費(fèi)訂閱選項(xiàng),付費(fèi)用戶可以使用更多模型比如Dall-e2等。生成圖像后,可以實(shí)時(shí)預(yù)覽和編輯,如調(diào)整亮度、對(duì)比度、飽和度、色彩等,甚至添加濾鏡、邊框、水印等效果。完成后可以通過(guò)獨(dú)立鏈接分享或直接下載保存。感興趣的朋友們可以去嘗試體驗(yàn)一下。
三、主流領(lǐng)域的三大“大咖”
AI王者:Web UI
接下來(lái)是目前最受歡迎的Stable Diffusion WebUI,它是一個(gè)基于Web網(wǎng)頁(yè)形式展現(xiàn)的圖形用戶界面,用于管理和控制Stable Diffusion。 提供了直觀、易于使用的界面。
讓用戶不需要復(fù)雜的編程技能或深入的技術(shù)知識(shí)也能使用這個(gè)強(qiáng)大的圖像生成技術(shù)。用戶可以通過(guò)一個(gè)簡(jiǎn)單的界面輸入文字描述,系統(tǒng)會(huì)根據(jù)這些描述生成相應(yīng)的圖像。WebUI雖然非常方便用戶的使用,但對(duì)本地算力有一定的要求,需要有較好的顯卡才能滿足程序運(yùn)行。因?yàn)閃ebUI是緊隨SD(Stable Diffusion)發(fā)布的,以開(kāi)源、易用插件眾多的特點(diǎn)迅速成為了主流選擇。
對(duì)于使用SD的用戶來(lái)說(shuō),大部分都始于WebUI,因此WebUI在很多人心中已經(jīng)成為了Stable Diffusion的代名詞。
潛力股:Comfy UI
目前Comfy UI正以獨(dú)特的特性和能力正迅速成為AIGC領(lǐng)域的焦點(diǎn),它能夠讓用戶通過(guò)連接各種模塊(節(jié)點(diǎn))來(lái)創(chuàng)建復(fù)雜而獨(dú)特的圖像生成流程。不僅可以作為圖形用戶界面使用,還能作為一個(gè)強(qiáng)大的后端服務(wù),比如在電商領(lǐng)域非?;鸨腒rita+Comfy UI實(shí)時(shí)出圖,這里Comfy UI就是作為后端使用的,包括前文提到的StableSwarmUI也以Comfy UI為后端的項(xiàng)目。如果用過(guò)OC渲染器的同學(xué)對(duì)它節(jié)點(diǎn)式的界面不會(huì)感到陌生,即使是初學(xué)者也能通過(guò)拖放操作輕松連接不同的節(jié)點(diǎn),完成文生圖和圖生圖的流程搭建,如果連接錯(cuò)誤它會(huì)很直觀的告訴你哪里有錯(cuò)誤。
開(kāi)源也讓它擁有非常多不同種類(lèi)的模塊,從簡(jiǎn)單的入門(mén)到高級(jí)復(fù)雜的進(jìn)階功能,能夠適應(yīng)各種不同的項(xiàng)目需求,靈活定制屬于自己的工作流。支持SD1.5、SDXL、LCM模型,涵蓋動(dòng)畫(huà)生成、Inpainting、ControlNet等高級(jí)功能。同時(shí)對(duì)硬件的要求也很低,即使沒(méi)有GPU也可通過(guò)CPU運(yùn)行,方便更多的用戶使用。
與其他工具相比,Comfy UI創(chuàng)新的差異化能力,為用戶提供了更多的擴(kuò)展性和應(yīng)用可能性,讓用戶根據(jù)自己的需求創(chuàng)造個(gè)性化的生成流程。從最近的發(fā)展趨勢(shì)上看,Comfy UI展現(xiàn)出了前所未有的潛力,隱隱的有種王霸之氣顯露出來(lái)。
抽卡的快樂(lè):Fooocus
Fooocus也是以Comfy UI作為其底層架構(gòu)的項(xiàng)目,它的主要目標(biāo)是將Stable Diffusion的交互體驗(yàn)簡(jiǎn)化為提示詞和圖像這一核心邏輯。所以它通過(guò)簡(jiǎn)化界面,并對(duì)SDXL模型做了大量?jī)?yōu)化和質(zhì)量改進(jìn)的措施,提供了一個(gè)非常易于使用的平臺(tái),特別適合那些不需要進(jìn)行復(fù)雜調(diào)整的用戶,只需簡(jiǎn)單的提示詞,就能生成高質(zhì)量的圖像,單純享受抽卡的樂(lè)趣。如果沒(méi)有條件使用Midjourney想白嫖的話,F(xiàn)ooocus是很好的選擇。
Fooocus同樣支持放大、變化、Inpaint/Outpaint、風(fēng)格化等多種圖像處理功能。對(duì)硬件的要求相對(duì)友好,最小GPU內(nèi)存需求為4GB,適用于更多類(lèi)型的設(shè)備,特別是配置較低的電腦。
在廣受歡迎的同時(shí),有網(wǎng)友就希望開(kāi)發(fā)者能把ControlNet等好用的工具加入其中。盡管Fooocus的開(kāi)發(fā)者和ControlNet的創(chuàng)作者是同一人,但他決定不將ControlNet集成到Fooocus中。因?yàn)榧尤隒ontrolNet等工具可能會(huì)使Fooocus漸漸演變成類(lèi)似webui的復(fù)雜系統(tǒng)。
針對(duì)希望將ControlNet等工具集成到Fooocus中的需求,github社區(qū)有開(kāi)發(fā)者創(chuàng)建了Fooocus-MRE。這個(gè)版本在保持原始Fooocus界面邏輯的同時(shí),加入了ControlNet和圖生圖等常用工具。雖然底層不同,但界面邏輯上看,MRE版Fooocus已經(jīng)非常接近webui。
四、寫(xiě)在最后
在探索Stable Diffusion及其GUI時(shí),會(huì)發(fā)現(xiàn)不同界面之間既有聯(lián)系也有區(qū)別,它們共同構(gòu)成了一個(gè)互補(bǔ)的生態(tài)系統(tǒng)。無(wú)論用戶的需求是追求操作簡(jiǎn)便性、更高級(jí)的定制功能,還是特定的用戶體驗(yàn),都能在這個(gè)多樣化的GUI中找到合適的選擇。
例如,對(duì)于追求簡(jiǎn)潔性的用戶,F(xiàn)ooocus提供了一個(gè)直觀易用的選項(xiàng);而MRE版本則適合那些尋求更多功能的用戶。
對(duì)于喜歡圖文框式操作的用戶,WebUI提供了豐富的插件和靈活的界面;而Comfy UI則滿足了專(zhuān)業(yè)用戶對(duì)定制化和自動(dòng)化的需求。
通過(guò)這種多元化的選擇,Stable Diffusion的GUI展現(xiàn)了其在滿足不同用戶需求方面的強(qiáng)大能力和靈活性。
本文由 @五幺六 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!