關(guān)于如何設(shè)計(jì)AI的方法變革——大模型的AI設(shè)計(jì)方法

5 評(píng)論 8122 瀏覽 32 收藏 175 分鐘

大模型推動(dòng)人工智能應(yīng)用的設(shè)計(jì)方式產(chǎn)生了根本性的變革。無(wú)論你是AI資深設(shè)計(jì)專(zhuān)家還是外行人員,這篇文章都可以啟發(fā)你對(duì)AI設(shè)計(jì)的思考,帶你探索過(guò)去現(xiàn)在和未來(lái)的AI該如何進(jìn)行設(shè)計(jì)。

  • 如果你已經(jīng)是一個(gè)AI設(shè)計(jì)人員,熟知基本的AI設(shè)計(jì)方法,可以直接跳到第三部分“三、大模型的AI設(shè)計(jì)方式變化”然后再與我探討想法。
  • 如果你只對(duì)大模型出現(xiàn)后的應(yīng)用和前景感興趣,不關(guān)心大模型的原理以及基于原理,也不想成為大模型或者行業(yè)應(yīng)用的設(shè)計(jì)人員,可以直接跳到“理解大模型的應(yīng)用與方向”和“建構(gòu)大模型的生態(tài)”部分。
  • 如果你不是一個(gè)AI設(shè)計(jì)人員,可以先讀第一部分“一、大模型出現(xiàn)以前AI設(shè)計(jì)方式”了解下過(guò)去的AI設(shè)計(jì),相信大部分設(shè)計(jì)方式都可以在平時(shí)工作找到對(duì)應(yīng)。

本文定位是一篇AI從業(yè)者分享一些大模型對(duì)個(gè)人設(shè)計(jì)理念帶來(lái)的沖擊,對(duì)于大模型的技術(shù)發(fā)展更多給出一些二次思考內(nèi)容,原始的技術(shù)文獻(xiàn)不會(huì)直接搬運(yùn)或者詳細(xì)解釋?zhuān)贿^(guò)談及到的每個(gè)部分的技術(shù)都附帶了文獻(xiàn)來(lái)源,可供自行翻閱。

寫(xiě)這篇文章的動(dòng)機(jī)之一是關(guān)于大模型的社群討論偏于低質(zhì),而且從大模型出現(xiàn)到現(xiàn)在,有意義的文章大多都圍繞模型本身的技術(shù)研究和工程復(fù)現(xiàn)進(jìn)行,很少有人從非純粹的技術(shù)層面探討一些大模型對(duì)于設(shè)計(jì)理念和行業(yè)相關(guān)方巨變的思考,因此希望可以通過(guò)分享自己的思考吸引更多愿意深度思考這件長(zhǎng)期機(jī)會(huì)的人。

這些對(duì)于目前的從業(yè)人士門(mén)檻、行業(yè)發(fā)展、應(yīng)用場(chǎng)景都具有很大的影響。作為一個(gè)一直在AI行業(yè)中的參與者,我把自己更多從非技術(shù)研究層面的思考和實(shí)踐經(jīng)驗(yàn)記錄下來(lái),匯總成關(guān)于大模型時(shí)代AI的設(shè)計(jì)和看待問(wèn)題的新方式。

本文視角其實(shí)更多的是站在AI設(shè)計(jì)的視角上探討問(wèn)題,關(guān)于商業(yè)模式、技術(shù)原理等等會(huì)簡(jiǎn)短討論,本文更多的探討基于當(dāng)下的研究產(chǎn)生的一些思考,對(duì)于研究信息僅會(huì)提供一些引用鏈接,核心在于探討下AI設(shè)計(jì)的方式以及未來(lái)展望的看法。本文計(jì)劃集中分享以下幾個(gè)問(wèn)題的思考:

  • 過(guò)去的AI設(shè)計(jì)是怎么做的?
  • 關(guān)于收益估算、任務(wù)定義、級(jí)聯(lián)模式、誤差評(píng)估等等專(zhuān)業(yè)設(shè)計(jì)怎么做?
  • 大模型對(duì)于設(shè)計(jì)方式產(chǎn)生了什么沖擊?
  • 大模型的哪些能力導(dǎo)致了這些沖擊?
  • 目前AI設(shè)計(jì)的門(mén)檻產(chǎn)生了什么變化?
  • 消噪與序列預(yù)測(cè)到底帶來(lái)了哪些可以發(fā)散想像的方向?
  • 大模型本身的限制有哪些應(yīng)用沒(méi)有辦法完成?

如果你是資深的AI行業(yè)設(shè)計(jì)人員,對(duì)于這些問(wèn)題已經(jīng)有了答案,希望你可以直接拉到文章最后,聯(lián)系到我和我探討下大模型對(duì)于你的設(shè)計(jì)方式產(chǎn)生了什么樣的沖擊和變化。如果你是非從業(yè)人員,看完我的思考之后,不知道你是不是覺(jué)得自己也理解了AI產(chǎn)品該如何設(shè)計(jì),也可以開(kāi)始做AI的設(shè)計(jì)工作了。

一、大模型出現(xiàn)以前AI產(chǎn)品設(shè)計(jì)方式

在大模型出現(xiàn)以前,結(jié)合過(guò)去的實(shí)踐經(jīng)驗(yàn),我將AI產(chǎn)品的設(shè)計(jì)總結(jié)為四個(gè)階段:目標(biāo)定義階段,收益估算階段,設(shè)計(jì)階段,迭代階段,下面結(jié)合一些實(shí)踐的案例分享一些個(gè)人思考。

1. 目標(biāo)定義階段

在討論AI產(chǎn)品的目標(biāo)定義時(shí),實(shí)際上與其他類(lèi)型產(chǎn)品的目標(biāo)定義相差并不太大,因?yàn)锳I產(chǎn)品本質(zhì)上還是以一種更高效的方式在解決實(shí)際業(yè)務(wù)問(wèn)題,因此這個(gè)方面就不重點(diǎn)談到,會(huì)在下面環(huán)節(jié)的案例里穿插一些。

例如,針對(duì)面向消費(fèi)者(To C)的產(chǎn)品,關(guān)注增長(zhǎng)曲線是否達(dá)到自然傳播率、產(chǎn)品是否跨越了技術(shù)采用生命周期等等。

而針對(duì)面向企業(yè)(To B)的產(chǎn)品,需要關(guān)注利益相關(guān)方的市場(chǎng)收益、客戶(hù)認(rèn)知,還有特殊的奢侈品和禮品類(lèi)產(chǎn)品邏輯。

唯一的差異在于,過(guò)去AI的產(chǎn)品設(shè)計(jì)需要額外關(guān)注【技術(shù)可達(dá)性】,另一方面因?yàn)榭蛻?hù)基本上完全不懂AI,不能指望客戶(hù)提供關(guān)于他所在行業(yè)的AI設(shè)計(jì)思路,而是需要想辦法先把自己變成客戶(hù)行業(yè)的專(zhuān)家,告訴客戶(hù)需要什么,就像拿著錘子找釘子,這一點(diǎn)和一般的設(shè)計(jì)有很大不同。

對(duì)于商業(yè)方面的目標(biāo)設(shè)定問(wèn)題,許多業(yè)界大咖已經(jīng)在商業(yè)分析、OKR、增長(zhǎng)等領(lǐng)域有深刻的時(shí)間和研討,就不班門(mén)弄斧了,這里強(qiáng)烈推薦大家直接關(guān)注劉潤(rùn)老師,作為劉潤(rùn)老師的五年死忠粉,他對(duì)于商業(yè)思想和方法,尤其是早期的很多內(nèi)容總能給我?guī)?lái)極大的啟發(fā)和幫助。

2. 收益估算階段

收益估算是在對(duì)于相關(guān)行業(yè)或者目標(biāo)場(chǎng)景具有一定了解之后,決定是否要投入這塊市場(chǎng)或需求場(chǎng)景,以及以什么樣的投入力度進(jìn)入,資深的設(shè)計(jì)者在估算收益之后,基本就已經(jīng)確定好大致的設(shè)計(jì)方案了。一般來(lái)講,收益估算會(huì)分為三個(gè)部分。

1)目標(biāo)大盤(pán)估算

比如目標(biāo)大盤(pán)的覆蓋率、用戶(hù)量、活躍率、交互量等信息,一般來(lái)說(shuō)需要來(lái)源于市場(chǎng)研究與洞察,如果是C端會(huì)來(lái)源于用研或者數(shù)據(jù)分析(一般是session分析)。

比如我需要構(gòu)建一個(gè)數(shù)據(jù)標(biāo)注平臺(tái),我需要決策標(biāo)注平臺(tái)是要自建還是采購(gòu)三方,那其實(shí)我就大概需要對(duì)這個(gè)市場(chǎng)的大盤(pán)做一個(gè)分析,評(píng)估其中的關(guān)鍵資源和關(guān)鍵利益相關(guān)方我是否能夠撬動(dòng)?多大成本能否撬動(dòng)?以來(lái)決策這件事情是否值得做。例如我可以做如下分析:

1.標(biāo)注任務(wù)類(lèi)似滴滴打車(chē),是典型的供給者(標(biāo)注員)、平臺(tái)、消費(fèi)者(需求企業(yè))的三方市場(chǎng)。

2.三方市場(chǎng)要做起來(lái),評(píng)估需要先撬動(dòng)哪一端,評(píng)估我的資源優(yōu)勢(shì)能夠撬動(dòng)標(biāo)注員,還是撬動(dòng)企業(yè)B端客戶(hù)渠道,能否更加高效的獲取客戶(hù),比如我具有很強(qiáng)的個(gè)人品牌、企業(yè)品牌、第三方背書(shū)等都可以顯著降低獲客或者渠道成本。

3.若要建設(shè)標(biāo)注自研,一定是標(biāo)注員的人均標(biāo)注成本能夠顯著低于采購(gòu)(對(duì)內(nèi)部工具而言),或者能夠以極低成本獲取外部客戶(hù)(對(duì)于做外部市場(chǎng)而言),如果我兩者優(yōu)勢(shì)均不具備,或者生產(chǎn)成本顯著高于外采,那就應(yīng)該放棄自建。

4.當(dāng)然如果是出于企業(yè)信息安全,或者絕密信息保護(hù)的需要,那就完全是另一種邏輯,完全不可以用投產(chǎn)比來(lái)衡量。

2)影響面估算

影響面決定打算開(kāi)始做這件事的上限,就算技術(shù)持續(xù)發(fā)展,理想情況可以100%的解決問(wèn)題,影響面也就是可能得最大收益了,當(dāng)然隨著要求效果的持續(xù)提升,需要的數(shù)據(jù)量和成本都會(huì)指數(shù)上升,而每次優(yōu)化帶來(lái)的收益會(huì)遞減,經(jīng)常很多AI產(chǎn)品做到差不多就不會(huì)優(yōu)化了。

① 一般如果有線上數(shù)據(jù)的話,影響面估算主要來(lái)源于數(shù)據(jù)觀察和現(xiàn)象抽象的總結(jié),就是采用歸納法來(lái)分析,例如線上搜索數(shù)據(jù)的多樣性不足,對(duì)線上日志分析后發(fā)現(xiàn)問(wèn)題的占比可能在5%,或者線上用戶(hù)有一些潛在情感交流訴求的比例在15%,這些都可以通過(guò)session分析的方式得到。

一般這種方式,TO B產(chǎn)品的數(shù)據(jù)分布相對(duì)比較固定,如果是TO C產(chǎn)品,會(huì)有兩種典型問(wèn)題:

1.新用戶(hù)都有【能力邊界試探現(xiàn)象】,會(huì)出現(xiàn)大量“無(wú)法理解”“閑聊”類(lèi)的數(shù)據(jù),而一般7天后則會(huì)收斂到設(shè)備可滿(mǎn)足的一些交互領(lǐng)域,之后交互比例也會(huì)相對(duì)固定。試探類(lèi)交互有可能并不是用戶(hù)的真實(shí)需求。

2.因?yàn)門(mén)O C的AI類(lèi)產(chǎn)品一般都很難像觸控產(chǎn)品一樣,把自己的能力邊界直接在界面展示給用戶(hù)看,因此產(chǎn)品能力會(huì)影響用戶(hù)行為。因?yàn)樾掠脩?hù)階段用戶(hù)除了試探外,更多會(huì)嘗試自己未來(lái)希望產(chǎn)品幫自己解決的問(wèn)題,而當(dāng)產(chǎn)品無(wú)法解決問(wèn)題的時(shí)候,慢慢用戶(hù)就不再會(huì)發(fā)起這些需求,但是這些往往是設(shè)計(jì)者希望持續(xù)擴(kuò)展的產(chǎn)品能力,所以很多新需求的挖掘往往要從新用戶(hù)數(shù)據(jù)來(lái)。這個(gè)也是7天左右新用戶(hù)需求收斂的原因。

② 如果是缺乏一些線上交互數(shù)據(jù),則和一般產(chǎn)品設(shè)計(jì)相同,需要采用市場(chǎng)調(diào)研或者用戶(hù)研究的方式開(kāi)展調(diào)研,輔以邏輯推理和統(tǒng)計(jì)學(xué)的后向歸納,得到一些可靠結(jié)論,比如最近招募用研,我就很喜歡問(wèn)如何驗(yàn)證數(shù)據(jù)可靠性以及推理相關(guān)性的問(wèn)題。

3)收益估算

一般采用邏輯演繹方式估計(jì)收益,在過(guò)去,和算法合作經(jīng)驗(yàn)豐富,經(jīng)常閱讀一些相關(guān)論文的資深A(yù)I產(chǎn)品,可以做到估算的相對(duì)較準(zhǔn)(當(dāng)然實(shí)際還取決于算法人員水準(zhǔn)),這一點(diǎn)尤其在TO B業(yè)務(wù)的客戶(hù)交流判斷方案和可行性時(shí)尤其重要,也是區(qū)分資深和非資深的因素。諸如有監(jiān)督的文本分類(lèi)任務(wù)可以做到多少,無(wú)監(jiān)督的文本聚類(lèi)任務(wù)SOTA效果是多少,那些任務(wù)技術(shù)可達(dá),哪些任務(wù)技術(shù)不可達(dá)。

實(shí)際業(yè)務(wù)里,收益的估算一般會(huì)更復(fù)雜一些,因?yàn)閷?shí)際系統(tǒng)一般不會(huì)是一個(gè)任務(wù)就可以完成,甚至在大模型以前,很多因?yàn)閱稳蝿?wù)技術(shù)不可達(dá),需要把一個(gè)任務(wù)拆解為多個(gè)任務(wù)組合才能實(shí)現(xiàn),這樣的收益估算就更加困難一些,和實(shí)際的偏差也會(huì)更大一些。

3. 設(shè)計(jì)階段

AI產(chǎn)品的設(shè)計(jì)一般也是分幾個(gè)階段進(jìn)行,我把這個(gè)總結(jié)成六步設(shè)計(jì),包括【問(wèn)題定義】【拆解問(wèn)題要素】【制定路徑/藍(lán)圖】【定義子任務(wù)】【定義子任務(wù)流程】【可行性推演】。以下主要結(jié)合兩年前的一個(gè)實(shí)踐案例,大致介紹下設(shè)計(jì)階段流程,因脫敏需要,案例的前置估算和部分設(shè)計(jì)細(xì)節(jié)會(huì)被我省略,省略部分會(huì)盡量插入一些其他案例。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

對(duì)于AI設(shè)計(jì)來(lái)說(shuō),邏輯基本素養(yǎng)尤其重要,在對(duì)于現(xiàn)實(shí)問(wèn)題的抽象過(guò)程中,經(jīng)常發(fā)現(xiàn)一些隱含的邏輯,而把這些邏輯全部抽象出來(lái)變成機(jī)器任務(wù)就是設(shè)計(jì)者的關(guān)鍵人物。經(jīng)常碰到的問(wèn)題有:

  • 存在隱含的前提:比如某兩個(gè)維度之間存在因果關(guān)系或者相關(guān)關(guān)系,比如趨勢(shì)永遠(yuǎn)整體向上等等。這些很多都會(huì)被當(dāng)成人工先驗(yàn)知識(shí),在模型里設(shè)置,而不是讓模型自己去學(xué)?;蛘弑热缥艺f(shuō)“去把垃圾扔一下”,隱含的前提假設(shè)是“你知道家里垃圾桶在哪”&“你知道丟垃圾的垃圾車(chē)在哪”
  • 假設(shè)需要明確定義:比如我們假設(shè)數(shù)據(jù)是離散的還是連續(xù)的,數(shù)據(jù)之間是否具有關(guān)聯(lián)性。以丟垃圾的例子來(lái)說(shuō),可能是我假設(shè)“垃圾中沒(méi)有什么超出你知識(shí)或者力量范圍的需要處理的物品”

這一部分用一個(gè)復(fù)雜度相對(duì)較低的例子分享下一些思考。在兩年前,業(yè)務(wù)部的老業(yè)務(wù)遭遇天花板,需要挖掘一些潛在的新業(yè)務(wù)出來(lái)。結(jié)合當(dāng)時(shí)業(yè)務(wù)的交互量越來(lái)越大,提了一個(gè)目標(biāo)是“從交互中發(fā)掘潛在需求”,對(duì)這個(gè)目標(biāo)進(jìn)行一個(gè)邏輯三段論的分析,會(huì)發(fā)現(xiàn)其實(shí)它其實(shí)隱含了一些沒(méi)有被明確定義的前提,以下問(wèn)題:

  • 需要定義什么叫“潛在需求”?
  • 交互中包含什么可以利用的信息?
  • 如何進(jìn)行發(fā)掘的流程設(shè)計(jì)?

介紹下AI設(shè)計(jì)中的我理解的“任務(wù)”概念,機(jī)器學(xué)習(xí)和人工智能的專(zhuān)業(yè)書(shū)籍上有很多關(guān)于這塊的介紹,我主要從非算法人員視角,結(jié)合過(guò)去經(jīng)驗(yàn)說(shuō)下我的理解:

1.怎么理解任務(wù):給AI明確邊界和達(dá)成量化條件的課題工作,最需要關(guān)注的兩個(gè)點(diǎn)也就是“明確的邊界”和“明確的可量化完成狀態(tài)”;

2.怎么理解子問(wèn)題:根據(jù)具體的任務(wù)目標(biāo),拆解出需要解決的子問(wèn)題,并且制定出大問(wèn)題的解決路徑,子任務(wù)可以不完全貼合機(jī)器視角,從邏輯推衍上看如何實(shí)現(xiàn)目標(biāo);

3.怎么理解子任務(wù):子任務(wù)可以說(shuō)是從AI的視角,由子問(wèn)題對(duì)應(yīng)到的具體算法任務(wù),每一個(gè)任務(wù)需要用一套算法或者組合算法來(lái)解決,關(guān)于這一塊,在后面的步驟中會(huì)詳細(xì)談一下;

4.一般任務(wù)的目標(biāo)如何定義,由于目標(biāo)是結(jié)合具體場(chǎng)景定義而來(lái)的,對(duì)于每個(gè)場(chǎng)景的深刻洞察我覺(jué)得才是設(shè)計(jì)者的核心能力,是一種把實(shí)際問(wèn)題抽象化的能力,定義系統(tǒng)要解決的場(chǎng)景核心是什么設(shè)計(jì)目標(biāo),一般來(lái)說(shuō)會(huì)有一些常見(jiàn)參考,例如精準(zhǔn),召回,多樣,排序,相關(guān)等等,目標(biāo)并不等同于指標(biāo),諸如F1、AUC等單純?cè)u(píng)估模型性能的指標(biāo)就不能算做設(shè)計(jì)目標(biāo),同樣的更多的場(chǎng)景其實(shí)需要根據(jù)場(chǎng)景,設(shè)計(jì)獨(dú)立的評(píng)價(jià)業(yè)務(wù)指標(biāo),過(guò)去基本每項(xiàng)任務(wù)其實(shí)都有根據(jù)業(yè)務(wù)目的設(shè)計(jì)的復(fù)合指標(biāo)來(lái)衡量目的是否達(dá)到,知名的BLEU、ROUGE等也屬于具體業(yè)務(wù)指標(biāo)。

1)問(wèn)題定義

① 問(wèn)題是什么

本質(zhì)上是重新審視問(wèn)題,定義要解決的問(wèn)題本質(zhì)是什么,因?yàn)锳I行業(yè)的客戶(hù)需求是模糊的,客戶(hù)無(wú)法定義到問(wèn)題,所以需要把一個(gè)抽象的想法轉(zhuǎn)變?yōu)槎ㄐ曰蛘叨康木呦髥?wèn)題。

同時(shí)需要對(duì)需求場(chǎng)景進(jìn)行分析,不同業(yè)務(wù)場(chǎng)景需要的目標(biāo)差別很大,需要設(shè)計(jì)人員首先確定對(duì)于業(yè)務(wù)場(chǎng)景來(lái)說(shuō),最重要的是什么。這里面其實(shí)更多的考驗(yàn)的是設(shè)計(jì)人員對(duì)于文化、社會(huì)、行為、人類(lèi)學(xué)、生物學(xué)、腦科學(xué)甚至心理學(xué)的理解(我不是很喜歡單純靠心理學(xué)得出結(jié)論的方式)。

比如三年前我們重新考慮語(yǔ)音搜索場(chǎng)景的搜索引擎問(wèn)題的時(shí)候,就發(fā)現(xiàn)這個(gè)場(chǎng)景和全文檢索(百度搜索)有很大不同,對(duì)于精準(zhǔn)的要求尤其高,但是召回?cái)?shù)量上反而要求要少,因?yàn)榇蠹叶枷M痪湓捴边_(dá)播放。

另一個(gè)例子是因?yàn)閿U(kuò)散模型的火爆,有些人用來(lái)設(shè)計(jì)一些擦邊福利圖片,然后就對(duì)于這種應(yīng)用場(chǎng)景進(jìn)行了一些思考。

對(duì)于這種場(chǎng)景來(lái)說(shuō),其實(shí)多樣性就是一個(gè)最重要的指標(biāo),提供的一定不能是單一女人,風(fēng)格一致的女人或者真實(shí)世界存在的女人,因?yàn)閺纳镞M(jìn)化視角來(lái)說(shuō),幻想“性”和真實(shí)“性”一定要有差異,幻想不可以是真實(shí)生活可接觸的一些特性,這一點(diǎn)花花公司老板海夫納尤其懂得,《花花公子》上的女人的著裝、行為、性格在現(xiàn)實(shí)生活不可能找到,這也就是海夫納的生意經(jīng)。

第三個(gè)想到的例子,是去年一直在做虛擬人的東西,本質(zhì)上其實(shí)是在探索情感這種非剛需的價(jià)值。關(guān)于這一點(diǎn),主要是參考了腦科學(xué)和心理學(xué)的交叉,包括心智系統(tǒng)、鏡像神經(jīng)元、邊緣系統(tǒng)、海馬體的構(gòu)成,以及據(jù)此總結(jié)的共情與共感兩類(lèi)對(duì)外情感基礎(chǔ)的形成。

這里因?yàn)槲覀儤I(yè)務(wù)目標(biāo)希望虛擬人和用戶(hù)之間建立情感信任,因此選擇共情路線,這就代表整個(gè)會(huì)話系統(tǒng)設(shè)計(jì)目標(biāo)是引起情感共鳴,和正常人人機(jī)會(huì)話、人和人的交流都顯著不同。例如用戶(hù)表達(dá)偏向情感類(lèi)事件的時(shí)候,一般情況下會(huì)話情感設(shè)定上,都需要對(duì)用戶(hù)表達(dá)贊同和理解,不論談?wù)搩?nèi)容如何。

關(guān)于這一部分,我的下一篇文章計(jì)劃是就打算詳細(xì)分享一下虛擬人設(shè)計(jì)的實(shí)踐,調(diào)研和運(yùn)用關(guān)于人的感性認(rèn)知如何建立,文學(xué)小說(shuō)撰寫(xiě)方法論及動(dòng)畫(huà)設(shè)計(jì)方法論等多學(xué)科領(lǐng)域知識(shí),同時(shí)在交互上借鑒了【艾迪芬奇的記憶】,對(duì)于這款游戲的研究刷新了我對(duì)于人機(jī)交互設(shè)計(jì)的理解。

關(guān)于問(wèn)題如何定義強(qiáng)烈建議可以看一下《你的燈亮著嗎》,里面有大量啟發(fā)性的案例,比如關(guān)于錯(cuò)誤定義問(wèn)題導(dǎo)致成本大量浪費(fèi),或者正確定義問(wèn)題使得復(fù)雜問(wèn)題一夜之間解決的例子。舉個(gè)例子,書(shū)里有提到“解決電梯擁堵問(wèn)題的一種方案,在每個(gè)上下班路上裝上鏡子,讓過(guò)路人都停下來(lái)整理妝容,就可以很好的解決電梯擁堵問(wèn)題?!?/p>

② 目標(biāo)場(chǎng)景最關(guān)注什么

第二個(gè)是需要分析對(duì)于目標(biāo)場(chǎng)景來(lái)說(shuō),最關(guān)注的是哪個(gè)維度。下圖是一個(gè)抽象的曲線來(lái)描述這個(gè)問(wèn)題,由于準(zhǔn)召屬于一堆蹺蹺板指標(biāo),在模型性能等同時(shí)候,往往是在根據(jù)業(yè)務(wù)場(chǎng)景在選擇曲線上滑動(dòng)選擇一端的點(diǎn)作為能力輸出。

這首先需要定義問(wèn)題所處的用戶(hù)場(chǎng)景中,是“精準(zhǔn)”更關(guān)鍵還是“召回”更加關(guān)鍵。雖然對(duì)于模型來(lái)說(shuō),可以用AUC來(lái)衡量模型整體的性能情況的,但是在相同性能情況下,可以根據(jù)目標(biāo)場(chǎng)景調(diào)整召回和精準(zhǔn)的傾向性。在某些情況下,如果所在場(chǎng)景里,某個(gè)維度的重要性遠(yuǎn)超其他維度,即使模型整體性能下降了,最關(guān)鍵的維度顯著提升,也可能是一次有意義的優(yōu)化。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

2)要素拆解

主要是拆分問(wèn)題得到解決需要的一些關(guān)鍵要素,哪些是解決問(wèn)題必備的關(guān)鍵要素,哪些是對(duì)于問(wèn)題有增益但是不關(guān)鍵的要素,這樣可以對(duì)后續(xù)的子任務(wù)拆分以及每個(gè)子任務(wù)的資源投入力度有一定的預(yù)期。熟悉TO C產(chǎn)品設(shè)計(jì)的應(yīng)該都熟悉TO C的業(yè)務(wù)藍(lán)圖繪制方式,目的都是一樣的,找到需要重資源投入解決的關(guān)鍵問(wèn)題。

結(jié)合兩年前“從交互中發(fā)掘潛在需求”的案例,首先對(duì)于“潛在需求”,我找了一些關(guān)鍵特性來(lái)描述這個(gè)概念,這些其實(shí)就可以算作這件事情拆分出來(lái)的要素?;谝貙?duì)應(yīng)的問(wèn)題,即可以找到系統(tǒng)設(shè)計(jì)的子任務(wù),簡(jiǎn)單的子問(wèn)題對(duì)應(yīng)一般對(duì)應(yīng)到一個(gè)子任務(wù),這里需要保證的是拆分出的要素和對(duì)應(yīng)的子任務(wù)是機(jī)器可以理解的。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

對(duì)于這個(gè)案例來(lái)說(shuō),核心就是如何看待“潛在需求”,我們可以想到一些要素來(lái)嘗試描述下理想中的潛在需求:

  • 目前沒(méi)有被滿(mǎn)足:目的挖掘新的領(lǐng)域,而不是單純的挖掘交互失敗的case,畢竟挖掘已知需求或者已知需求的新表達(dá)范式并不是目標(biāo)。
  • 用戶(hù)的需求是普遍的:畢竟是商業(yè)公司,肯定是希望優(yōu)先做投入產(chǎn)出比最高的事。
  • 未來(lái)有增長(zhǎng)潛力:同樣的,商業(yè)公司考慮持續(xù)收益,但是這件事可以推理出如果我要預(yù)測(cè)一兩年后需求發(fā)展情況,做一個(gè)長(zhǎng)周期時(shí)序預(yù)測(cè),必然不確定性極高,完全不具備可商業(yè)性,這種問(wèn)題就應(yīng)當(dāng)交給人解決。

從上面的三個(gè)要素,可以發(fā)現(xiàn)首先機(jī)器獨(dú)立一定無(wú)法完成任務(wù),這個(gè)任務(wù)一定是人機(jī)耦合的。其次前兩個(gè)要素都有共性問(wèn)題,就是AI還是無(wú)法直接完成,因?yàn)檎也坏竭@些要素和問(wèn)題的邊界和明確的量化完成狀態(tài),我就以“用戶(hù)需求普遍性”要素為例,做一下要素拆解。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

因?yàn)檫壿嬌蟻?lái)說(shuō)我沒(méi)法一步得到投產(chǎn)比這種復(fù)合結(jié)果,我可以先計(jì)算收益,收益這個(gè)概念其實(shí)分析下,也會(huì)發(fā)現(xiàn)其實(shí)是由【影響面】和【轉(zhuǎn)化率】組成的復(fù)合指標(biāo),轉(zhuǎn)化率這件事我認(rèn)為機(jī)器是不可達(dá)的,也需要人工判斷,那就只能進(jìn)行【影響面】的挖掘和預(yù)測(cè)。因此到這里我們其實(shí)已經(jīng)可以修正下我們的第一步的目標(biāo)了。

目前來(lái)看,我們的目標(biāo)實(shí)際上是設(shè)計(jì)一個(gè)“新需求領(lǐng)域的影響面挖掘系統(tǒng)”+“一套可視化后臺(tái)用于人工結(jié)合市場(chǎng)知識(shí)判斷新領(lǐng)域預(yù)期轉(zhuǎn)化率”。

應(yīng)該注意兩點(diǎn):

1.熟悉概率、統(tǒng)計(jì)或者信息論的都了解,實(shí)際上每一次拆分,或者用組合方式解決問(wèn)題,都再次引入了誤差,代表系統(tǒng)整體效率的下降,所以應(yīng)當(dāng)盡可能端到端的輸入輸出直接解決問(wèn)題,避免過(guò)多的問(wèn)題和任務(wù)分解設(shè)計(jì);

2.對(duì)于很多問(wèn)題實(shí)際上機(jī)器完全不可達(dá),不可達(dá)原因可能是完全無(wú)法收集到數(shù)據(jù)、任務(wù)完全無(wú)法定義或者當(dāng)前技術(shù)效果無(wú)法商用,這個(gè)時(shí)候經(jīng)典的做法就是把問(wèn)題交還給用戶(hù),采用人機(jī)耦合方式解決問(wèn)題,這個(gè)時(shí)候系統(tǒng)設(shè)計(jì)的目標(biāo)也應(yīng)該從【直接解決問(wèn)題】改變?yōu)椤据o助提高人類(lèi)的問(wèn)題解決效率】,其實(shí)很多產(chǎn)品都可以看到這類(lèi)影子,比如經(jīng)典的“幫助中心”或者“客服中心”。

實(shí)際上到這一步,大致的可達(dá)路徑其實(shí)心里已經(jīng)大致有數(shù)了。

3)路徑制定

以“從交互中發(fā)掘潛在需求”這個(gè)例子分享下我的一些思考,在最開(kāi)始的拆解中,我分解了三個(gè)初始問(wèn)題:

  1. 定義什么叫“潛在需求”?
  2. 交互中包含什么可以利用的信息?
  3. 如何進(jìn)行發(fā)掘的流程設(shè)計(jì)?

在前面我做了第一個(gè)問(wèn)題的分析,下面兩個(gè)問(wèn)題因?yàn)樯婷苡脩?hù)和業(yè)務(wù)信息了,我就簡(jiǎn)要闡述下:

① 交互中包含的可以利用的信息

實(shí)際上這個(gè)是經(jīng)典的信息論原理的利用,一般應(yīng)用到的會(huì)包括以下兩點(diǎn),同樣的我以非算法的視角闡述下我的理解:

A. 信息的輸入一定要大于輸出,存在冗余才能通過(guò)算法壓縮輸出需要的信息,并且還原信息。

通俗點(diǎn),比如模型完全沒(méi)有學(xué)習(xí)過(guò)小學(xué)數(shù)學(xué),就不可能可以解決小學(xué)數(shù)學(xué)題。

像GPT這種大模型可以讓你輸入很短的幾句話,就幫你寫(xiě)出論文,原因在于GPT本質(zhì)上是一個(gè)語(yǔ)言模型,是語(yǔ)言模型訓(xùn)練過(guò)程輸入壓縮了相關(guān)的知識(shí)信息,因此才可以在很少輸入的情況下,讓語(yǔ)言模型補(bǔ)足需要的輸出。其實(shí)從GPT計(jì)算小學(xué)內(nèi)容經(jīng)常出錯(cuò)也可以看出這個(gè)原理,因?yàn)檫@類(lèi)信息不在GPT的訓(xùn)練數(shù)據(jù)中。

另一個(gè)直觀的理解方式是,給定1的輸入就最多只能有1的輸出,不可能產(chǎn)生1.1,實(shí)際上AI需要冗余信息,才可以保證壓縮傳遞后能夠輸出一樣的結(jié)果,即10的輸入產(chǎn)生1的輸出,因?yàn)樘幚砭鸵欢〞?huì)損失一些東西,有冗余才可以容忍更多處理空間。

B. 引入解決問(wèn)題需要的更多維度,尤其是正交維度的信息,就可以顯著提升模型效果。

其實(shí)這也是最常用的大幅優(yōu)化效果的方式,例如在語(yǔ)音類(lèi)的AI設(shè)計(jì)中,【用戶(hù)輸入的語(yǔ)音音頻】和【用戶(hù)的語(yǔ)言表達(dá)】就是兩個(gè)不重疊的正交維度,即使一些純粹的語(yǔ)音AI能力,例如聲紋識(shí)別、語(yǔ)音合成,引入語(yǔ)言的維度也可以大幅提升效果,因此尋找需要解決場(chǎng)景的更多相關(guān)正交維度,就是一種最常見(jiàn)的優(yōu)化方式。

當(dāng)然信息論的原理有很多條,只是在這件事上,我主要應(yīng)用了以上兩條。因?yàn)锳I的基礎(chǔ)是信息論,即使是在大模型時(shí)代,信息論的基本原理就像物理學(xué)基本法則,屬于目前基于統(tǒng)計(jì)的AI無(wú)法逾越的基本法則。

對(duì)于語(yǔ)音交互來(lái)說(shuō),一般尋找到的正交可利用信息維度類(lèi)別有用戶(hù)音頻、用戶(hù)文本、用戶(hù)操作、交互周?chē)h(huán)境、操作發(fā)生時(shí)間等等方面進(jìn)行尋找,這個(gè)其實(shí)很簡(jiǎn)單我就省略了。

② 如何進(jìn)行發(fā)掘的流程設(shè)計(jì)

對(duì)于這件事,其實(shí)本質(zhì)上是檢驗(yàn)邏輯鏈合理性和前提假設(shè)成立可能性,做過(guò)基本的邏輯學(xué)訓(xùn)練的人都可以做到,實(shí)際這件事我也是指導(dǎo)一個(gè)校招生就讓他完成了,大致可以這么思考這件事:

A. 首先通過(guò)定義一些交互失敗的特征,一般都是通過(guò)定義【顯性正反饋】【顯性負(fù)反饋】【隱性正反饋】【隱性負(fù)反饋】來(lái)實(shí)現(xiàn)交互失敗的case判斷,敏感原因我省略具體特征。但是其實(shí)這樣無(wú)法區(qū)別幾類(lèi)問(wèn)題:

  • 效果有問(wèn)題:因?yàn)樗惴ㄐЧ麊?wèn)題、或者用戶(hù)自身問(wèn)題導(dǎo)致交互失??;
  • 已有需求新的表達(dá)范式:例如【影視】新增“制片商說(shuō)法方式”;
  • 新領(lǐng)域需求:比如奧運(yùn)會(huì)來(lái)了,我們需要重新定義一個(gè)奧運(yùn)會(huì)領(lǐng)域。

對(duì)于這種邊界很模糊的分類(lèi)問(wèn)題,AI基本無(wú)能為力,因此思路上只能并行構(gòu)造兩套系統(tǒng),一套挖掘“效果問(wèn)題”的case,一套挖掘“新需求/新范式”的case,一套設(shè)計(jì)上側(cè)重利用已有知識(shí)挖掘關(guān)聯(lián)性,一套側(cè)重新需求發(fā)現(xiàn)。兩套系統(tǒng)一定會(huì)有重疊,但是配合也可以解決問(wèn)題。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

一種典型的交互失敗案例

B. 要實(shí)施挖掘,可以想到的邏輯鏈及匹配的前提假設(shè)有:

a. 假設(shè)線上用戶(hù)的交互說(shuō)法,同類(lèi)的需求具備一些明顯的共性,不同類(lèi)的具有顯著差異。

  • a.i. 那可以直接嘗試先進(jìn)行無(wú)監(jiān)督聚類(lèi),將數(shù)據(jù)劃分成一堆類(lèi)別,即可拿到比如,線上100w數(shù)據(jù),有幾類(lèi)需求(比如天氣1w,股票2w),當(dāng)然沒(méi)有先驗(yàn)知識(shí)注入的情況下我只能得到【category1】【category2】【category3】
  • a.ii. 接下來(lái)第二步處理如何知道【category1】【category2】【category3】,分別是什么,可以想到最簡(jiǎn)單的方式是,假設(shè)我可以先給系統(tǒng)注入知識(shí),告訴它什么樣的數(shù)據(jù)叫“天氣”那不就可以完成任務(wù)

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

需求挖掘流程的簡(jiǎn)單想法

b. 這種流程下,接下來(lái)的子任務(wù)定義就很簡(jiǎn)單,“聚類(lèi)+分類(lèi)”就可以實(shí)現(xiàn),但是這中邏輯鏈存在明顯的問(wèn)題:

問(wèn)題1:這個(gè)流程里無(wú)監(jiān)督聚類(lèi)的準(zhǔn)確度是最重要的,因?yàn)楹罄m(xù)的分類(lèi)環(huán)節(jié)是基于已有聚類(lèi)流程開(kāi)展的,邏輯上第一個(gè)環(huán)節(jié)的效果就尤其重要,因?yàn)槿绻谝粋€(gè)環(huán)節(jié)效果只有50%,那基本后面就和拋硬幣瞎猜一樣了。

然而實(shí)際上,調(diào)研了下業(yè)界的無(wú)監(jiān)督聚類(lèi)SOTA,確實(shí)低的嚇人,但是可以看到在加入一些知識(shí)做半監(jiān)督之后,效果提升明顯,但是與此同時(shí)卻喪失了發(fā)現(xiàn)訓(xùn)練外的新需求的能力,這個(gè)對(duì)于我們業(yè)務(wù)場(chǎng)景來(lái)說(shuō)是不可接受的。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Discovering New Intents with Deep Aligned Clustering(https://arxiv.org/abs/2012.08987)

問(wèn)題2:假設(shè)我真的有這樣一份結(jié)構(gòu)化的知識(shí),那本質(zhì)上我的任務(wù)還沒(méi)開(kāi)始其實(shí)已經(jīng)完成了,因?yàn)槲壹热灰呀?jīng)都可以知道什么數(shù)據(jù)是什么需求了,直接去匹配就可以了,沒(méi)必要做一個(gè)挖掘系統(tǒng)了,這是一個(gè)典型的先有雞還是先有蛋的問(wèn)題。

c. 所以在我們沒(méi)有一個(gè)完善的結(jié)構(gòu)化知識(shí),并且無(wú)監(jiān)督聚類(lèi)效果肯定無(wú)法商用的前提下,要怎么來(lái)做這件事呢?這里細(xì)節(jié)就不闡述了,以下是當(dāng)初思考的某幾個(gè)想法:

  • 思路1:我拿不到精準(zhǔn)的結(jié)構(gòu)化知識(shí),那么我是否可以拿到一些相對(duì)粗的知識(shí)呢?比如維基百科、SNS社區(qū)、各種門(mén)戶(hù)網(wǎng)站都有很好的粗粒度非結(jié)構(gòu)化或者半結(jié)構(gòu)化知識(shí);
  • 思路2:像Google、Baidu這類(lèi)搜索引擎,他們構(gòu)造原理上需要爬蟲(chóng)爬取全世界的網(wǎng)頁(yè),并且進(jìn)行相關(guān)性檢索,因此我們可以假設(shè)一個(gè)新query的相關(guān)實(shí)體或者query本身,搜索引擎可以提供高相關(guān)度的網(wǎng)頁(yè),那我們就可以用搜索接口的Top N結(jié)果去挖掘一些潛在粗粒度知識(shí);
  • 思路3:直接拿到大量數(shù)據(jù)聚類(lèi)處理不可行的話,我們是否借鑒“新query發(fā)現(xiàn)”的思路,從單條數(shù)據(jù)切入,先找到單條的新需求數(shù)據(jù),然后再推廣找到類(lèi)似新需求范式的影響面,但是其實(shí)這樣設(shè)計(jì)會(huì)有一個(gè)問(wèn)題,就是以【新范式】代替了【新需求】,范式定義就很重要,比如引入語(yǔ)義、語(yǔ)法等等就比單純的文本近似靠譜得多,但是這樣實(shí)際上挖掘到的需求影響面會(huì)比實(shí)際??;
  • 思路4:技術(shù)不可達(dá)的話,通過(guò)人機(jī)耦合來(lái)完成任務(wù),比如構(gòu)造一個(gè)挖掘平臺(tái),每天把挖掘到的同一類(lèi)的新大類(lèi)需求拋到上面,由人工去標(biāo)記這是什么需求。這種思路的話就需要內(nèi)部拉通一個(gè)“需求閉環(huán)團(tuán)隊(duì)”,要求大家每天都上平臺(tái)做需求分析。

這里每種思路的后續(xù)設(shè)計(jì)思考我就省略了,簡(jiǎn)單說(shuō)做一些可行性的推衍之后,各種思路結(jié)合做了第一版的簡(jiǎn)單路徑設(shè)計(jì),細(xì)節(jié)諸如粗粒度知識(shí)如何獲取之類(lèi)的就省略了:

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

直接處理全部數(shù)據(jù)聚類(lèi)效果不可達(dá),逆向思維,從單條數(shù)據(jù)開(kāi)始找單條數(shù)據(jù)的近似類(lèi)

如果目前想不到什么假設(shè),或者對(duì)于場(chǎng)景沒(méi)有什么了解,則需要先補(bǔ)充自己對(duì)于這塊的了解,一般來(lái)說(shuō)是從現(xiàn)網(wǎng)交互數(shù)據(jù),或者線下用研中獲取一些信息。

4)子任務(wù)定義

核心是把之前拆解的子問(wèn)題和路徑,轉(zhuǎn)化成算法上的AI子任務(wù),子任務(wù)定義從技術(shù)上來(lái)說(shuō)可以說(shuō)是決定整個(gè)系統(tǒng)效果上限的動(dòng)作,定義錯(cuò)了子任務(wù)后面的算法結(jié)構(gòu)再怎么優(yōu)化,再怎么加高質(zhì)量數(shù)據(jù),效果也很難上得去。建議和算法負(fù)責(zé)人討論完成,需要資深算法人員的深度參與,因?yàn)閺倪@里開(kāi)始已經(jīng)要開(kāi)始規(guī)劃技術(shù)路線了,甚至我其實(shí)覺(jué)得算法才是起到主導(dǎo)作用。這部分我只是從非算法的視角結(jié)合案例談一點(diǎn)粗淺理解。

從大類(lèi)來(lái)說(shuō),AI可以分為兩個(gè)大類(lèi)任務(wù)【判別】和【生成】,其實(shí)這也分別標(biāo)識(shí)了兩條AI發(fā)展路線。除此以外AI我個(gè)人認(rèn)為,主要需要了解的通用AI子任務(wù)有以下幾類(lèi):

  1. 分類(lèi)(Classification):將數(shù)據(jù)劃分到預(yù)先定義好的類(lèi)別中。
  2. 聚類(lèi)(Clustering):根據(jù)相似性對(duì)數(shù)據(jù)進(jìn)行分組。
  3. 回歸(Regression):預(yù)測(cè)一個(gè)連續(xù)值變量。
  4. 排序(Ranking):對(duì)項(xiàng)目按照相關(guān)性或優(yōu)先級(jí)進(jìn)行排序。
  5. 檢索(Retrieval):從大量數(shù)據(jù)中查找與查詢(xún)相關(guān)的信息。
  6. 關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining):發(fā)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系。
  7. 時(shí)序分析(Time Series Analysis):預(yù)測(cè)基于時(shí)間序列數(shù)據(jù)的未來(lái)值或趨勢(shì)。
  8. 異常檢測(cè)(Anomaly Detection):識(shí)別數(shù)據(jù)中的異?;螂x群值。

其他的一些子任務(wù)很多是算法中間過(guò)程,例如超參優(yōu)化、Embedding等等,這些我覺(jué)得非算法了解大致用途即可?;蛘呤且恍┚唧w業(yè)務(wù)場(chǎng)景可能用到的,例如自然語(yǔ)言處理中的NER、句法分析、指代消解等等,這些根據(jù)業(yè)務(wù)場(chǎng)景需要補(bǔ)充對(duì)應(yīng)知識(shí)。

這個(gè)方便理解重要性可以舉一個(gè)四年前的案例。當(dāng)時(shí)的背景是我們發(fā)現(xiàn)全文檢索方案在語(yǔ)音場(chǎng)景的搜索中效果很一般,需要重新設(shè)計(jì)一個(gè)語(yǔ)音場(chǎng)景的搜索引擎,其中有一個(gè)子問(wèn)題,當(dāng)初我想首先必須了解用戶(hù)表達(dá)的資源的結(jié)構(gòu)化知識(shí)是什么樣子的,例如《戰(zhàn)狼》的主演是誰(shuí)、出品公司是啥、角色哪些討喜、情節(jié)是啥、輿論評(píng)價(jià)如何等等。這樣我可以有更多維度的輸入,最終的輸出設(shè)計(jì)空間就很大。

針對(duì)這件事,我們覺(jué)得需要一個(gè)豐富的影視知識(shí)圖譜,然后我們想到以下幾個(gè)點(diǎn):

1.比如豆瓣、貓眼、時(shí)光網(wǎng)這種三方網(wǎng)站,其實(shí)有大量的線上線下影視結(jié)構(gòu)數(shù)據(jù)、影評(píng)數(shù)據(jù)等等,甚至微博、小紅書(shū)、Twitter等等有相關(guān)輿論討論;

2.比如騰訊、優(yōu)酷、愛(ài)奇藝、Netflix、Hulu、HBO等等網(wǎng)站,每家有自己版權(quán)的影視,其中也含有不少獨(dú)家影視知識(shí)信息;

3.當(dāng)時(shí)和算法負(fù)責(zé)人合計(jì)把多個(gè)來(lái)源整合到一起,就可以得到一份最全的影視知識(shí)圖譜,比如我們有豆瓣的《小豬佩奇》和HBO的《小豬佩奇》,把兩邊字段合并就可以得到更全的《小豬佩奇》知識(shí)。

4.然后合并這一步,我們想當(dāng)然的認(rèn)為,這是一個(gè)分類(lèi)任務(wù),因?yàn)槲抑灰袛喽拱甑摹缎∝i佩奇》和HBO的《小豬佩奇》是不是一個(gè)東西,是就合并到一起就可以了。

再把其他的子問(wèn)題思考加入,到這里至少當(dāng)初我們覺(jué)得邏輯上沒(méi)有任何問(wèn)題,結(jié)果做出來(lái)我們發(fā)現(xiàn)不管怎么優(yōu)化模型結(jié)構(gòu)和數(shù)據(jù),效果都做不上去,甚至神經(jīng)網(wǎng)絡(luò)的效果和用來(lái)做demo對(duì)比的傳統(tǒng)機(jī)器學(xué)習(xí)的效果基本一致。后來(lái)復(fù)盤(pán)我們才發(fā)現(xiàn)子任務(wù)定義錯(cuò)了,這個(gè)場(chǎng)景實(shí)際上是一個(gè)排序任務(wù),因?yàn)椤缎∝i佩奇》各個(gè)來(lái)源可能有上百部,以一個(gè)來(lái)源為基礎(chǔ)逐一對(duì)比增加信息,實(shí)際上模型看不到其他來(lái)源的信息,如果是排序任務(wù),模型就可以一次性輸入全部信息比對(duì)。

子任務(wù)定義后需要注意以下幾點(diǎn):

  • 子任務(wù)是否符合需求場(chǎng)景:即子任務(wù)定義是否正確。
  • 子任務(wù)是否具備可行性:對(duì)于計(jì)算機(jī)來(lái)說(shuō)不可計(jì)算任務(wù),比如無(wú)法通過(guò)圖靈機(jī)測(cè)試的;或者時(shí)間或者成本過(guò)高的任務(wù),例如參數(shù)訓(xùn)練需要30臺(tái)超級(jí)計(jì)算機(jī)計(jì)算3年(當(dāng)然看公司經(jīng)濟(jì)實(shí)力),這些都可以認(rèn)為不具備可行性。
  • 子任務(wù)效果上是否ok:可以先調(diào)研下業(yè)界的子任務(wù)Sota,效果無(wú)法商用的也沒(méi)有意義。

這里還是用上面的影視知識(shí)圖譜舉個(gè)例子,當(dāng)時(shí)我們引入了影視海報(bào)作為額外正交維度,提升合并效果,這件事也犯過(guò)一個(gè)小的定義錯(cuò)誤,最開(kāi)始想當(dāng)然認(rèn)為比對(duì)圖像相似度即可,后來(lái)發(fā)現(xiàn)實(shí)際任務(wù)要復(fù)雜得多,只是這次問(wèn)題在設(shè)計(jì)階段就糾正了。

當(dāng)然除了調(diào)整子任務(wù)定義,上述問(wèn)題還可以通過(guò)清洗數(shù)據(jù)解決,訓(xùn)練數(shù)據(jù)中的噪音對(duì)于AI來(lái)說(shuō)會(huì)嚴(yán)重影響效果,即使是語(yǔ)音識(shí)別中的噪音環(huán)境中的識(shí)別,更多也是單獨(dú)對(duì)固定頻率的噪音建模,過(guò)濾這些噪音信號(hào),訓(xùn)練數(shù)據(jù)的高質(zhì)量是保證AI效果的關(guān)鍵。對(duì)于子任務(wù)定義,案例涉密的分析過(guò)程我就省略了,這件事確實(shí)很看水平。

5)子任務(wù)流程

子任務(wù)定義完成之后,就需要設(shè)計(jì)一套流程將其組合成完整的解決方案,這里除了邏輯上怎么把子任務(wù)關(guān)聯(lián)起來(lái)以外,經(jīng)驗(yàn)上來(lái)說(shuō)有兩種常用到設(shè)計(jì)模式:

① 級(jí)聯(lián)結(jié)構(gòu):一個(gè)子任務(wù)的輸出會(huì)被下一個(gè)子任務(wù)所使用。

經(jīng)常在一些【分類(lèi)子任務(wù)+其他子任務(wù)】的模式中使用,例如如果是一個(gè)購(gòu)物網(wǎng)站,我們可以先把用戶(hù)分類(lèi)成“購(gòu)物狂人”、“剛需購(gòu)買(mǎi)”、“優(yōu)惠券狂人”、“奢侈品愛(ài)好者”等等類(lèi)型,然后對(duì)每個(gè)類(lèi)型的用戶(hù)分別構(gòu)建模型,由分類(lèi)模型判定后,每種模型分別打分,輸出結(jié)果后吧結(jié)果拋給對(duì)應(yīng)的推薦模型給出推薦結(jié)果。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

② 中立類(lèi):在分類(lèi)任務(wù)中比較常用,比如分類(lèi)任務(wù)中經(jīng)常有一些不認(rèn)識(shí)的數(shù)據(jù),或者搖擺數(shù)據(jù),就可以加入拒識(shí)模式或者定義一個(gè)搖擺類(lèi),就可以讓分類(lèi)效果大幅提升。

例如自然語(yǔ)言理解的意圖分類(lèi)里,就可以定義“影視、音樂(lè)、笑話、天氣、拒識(shí)”幾個(gè)類(lèi)別,再比如要分析運(yùn)動(dòng)對(duì)于治療頸椎病是否有效,就可以定義“有效、無(wú)效、中立”幾個(gè)類(lèi)別,比單純定義“有效、無(wú)效”會(huì)好很多。

其他的則需要根據(jù)業(yè)務(wù)場(chǎng)景需要看如何設(shè)計(jì),比如上文提到的“從交互中發(fā)掘潛在需求”的流程中,實(shí)際上就是一個(gè)持續(xù)運(yùn)行的分類(lèi)任務(wù),同時(shí)維護(hù)一個(gè)待聚類(lèi)池,滿(mǎn)足一定條件設(shè)定就觸發(fā)聚類(lèi)。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

當(dāng)然實(shí)際算法要處理的設(shè)計(jì)問(wèn)題要多的多,諸如檢查點(diǎn)設(shè)置、數(shù)據(jù)Pipeline、重平衡等等,只是作為非算法人員,我認(rèn)為主要以上是需要考慮的,其他的了解即可,相信你的算法負(fù)責(zé)人的專(zhuān)業(yè)性。

驗(yàn)收指標(biāo)制定

實(shí)際上,一般AI產(chǎn)品或者能力都會(huì)有個(gè)驗(yàn)收階段,例如觀察混淆矩陣,AUC等離線驗(yàn)收模型效果,觀察制定的業(yè)務(wù)指標(biāo)在各種集合上的表現(xiàn)。這里主要是分享一些關(guān)于設(shè)計(jì)的思考,就不仔細(xì)談這件事,但是根據(jù)應(yīng)用場(chǎng)景特性制定業(yè)務(wù)的驗(yàn)收指標(biāo)這件事很重要。這個(gè)指標(biāo)和模型的性能評(píng)價(jià)指標(biāo)無(wú)關(guān),有些時(shí)候模型的性能指標(biāo)不變甚至有所下降,但是業(yè)務(wù)關(guān)鍵指標(biāo)提升了,對(duì)具體業(yè)務(wù)來(lái)說(shuō)也是一次有益的優(yōu)化。

關(guān)于業(yè)務(wù)關(guān)鍵指標(biāo)制定,一般來(lái)說(shuō)都不是精準(zhǔn)度、召回率、多樣性等等這種單一維度指標(biāo),一般都是復(fù)合指標(biāo),而且為了排除絕對(duì)數(shù)量的影響,一般都是比例型指標(biāo)。關(guān)于驗(yàn)收另外重要的一點(diǎn)是,指標(biāo)一定是分兩類(lèi)的:

  • 在線評(píng)價(jià)指標(biāo):用于在系統(tǒng)做好之后進(jìn)行驗(yàn)收的指標(biāo)??梢岳斫鉃榧词共欢畠?nèi)部邏輯的小白,也有一個(gè)直觀方法評(píng)判結(jié)果如何。以人機(jī)會(huì)話舉例的話,可以設(shè)計(jì)例如對(duì)話回復(fù)是否符合常識(shí),人設(shè)是否凸顯等等。
  • 離線評(píng)價(jià)指標(biāo):用于在系統(tǒng)研發(fā)階段評(píng)估系統(tǒng)質(zhì)量的指標(biāo)??梢岳斫鉃閮?nèi)部產(chǎn)研人員評(píng)估每個(gè)維度的效果是否達(dá)到預(yù)期,指導(dǎo)迭代的指標(biāo)。以人機(jī)會(huì)話舉例的話,可以設(shè)計(jì)例如QA相關(guān)度、情緒識(shí)別準(zhǔn)確度、情緒應(yīng)對(duì)策略是否合理、回復(fù)文本風(fēng)格是否幽默等等。

假設(shè)為上述的“交互需求挖掘”制定業(yè)務(wù)指標(biāo),雖然中間有很多的子任務(wù),但是我可以關(guān)注每條數(shù)據(jù)是否被正確分類(lèi)了。因?yàn)檫@本質(zhì)上是一個(gè)效率系統(tǒng),而且我已知聚類(lèi)的SOTA其實(shí)不高,但是這個(gè)誤差我可以接受,我其實(shí)更關(guān)注盡量少的使用人工,例如我可以定義“保證每類(lèi)需求95%類(lèi)純度基礎(chǔ)上,被正確召回到類(lèi)別里的數(shù)據(jù)占80%以上”,當(dāng)然實(shí)際不是這個(gè)指標(biāo),只是隨便舉個(gè)例子。

6)可行性推演

主要是回頭評(píng)估整個(gè)解決方案的問(wèn)題,在檢驗(yàn)子任務(wù)定義和流程設(shè)計(jì)之后,主要是需要預(yù)估下整個(gè)系統(tǒng)的誤差和冗余大概有多少,以及評(píng)估應(yīng)用場(chǎng)景是否可以接受這種級(jí)別的誤差。

① 誤差評(píng)估

對(duì)于誤差評(píng)估來(lái)說(shuō),我認(rèn)為設(shè)計(jì)人員應(yīng)該在設(shè)計(jì)完之后,大致就對(duì)自己的整個(gè)解決方案的誤差大致量級(jí),或者說(shuō)實(shí)現(xiàn)了原始目標(biāo)的百分之多少有一個(gè)預(yù)估。

  1. 首先還是先分析需求場(chǎng)景的特性,不同場(chǎng)景對(duì)于誤差的容忍度是不同的,這個(gè)其實(shí)很好理解,比如軍工、安全等引用場(chǎng)景,誤差容忍度就很低,比如很多99.74%的【3-sigma法則】甚至很多企業(yè)實(shí)施的【6-sigma準(zhǔn)則】。
  2. 不同場(chǎng)景對(duì)于不同指標(biāo)的誤差容忍度也是不同的,這個(gè)也是為什么一般需要先定義目標(biāo)是什么(精準(zhǔn),召回,多樣,排序,相關(guān)),比如軍工安全上,模型性能不變的情況下,可以犧牲召回來(lái)?yè)Q得高精準(zhǔn)度。
  3. 任務(wù)定義和初始目標(biāo)之間就有Gap,但是為了把抽象目標(biāo)變成可實(shí)施的,就會(huì)產(chǎn)生。
  4. 子問(wèn)題拆解或者子任務(wù)定義過(guò)程中,因?yàn)槟承┳訂?wèn)題走不通,或者子任務(wù)不可達(dá),導(dǎo)致需要做一些邏輯降級(jí),比如解決其中的一部分,讓系統(tǒng)變得可以實(shí)現(xiàn),這個(gè)天然也就引入誤差。
  5. 定義設(shè)計(jì)流程中,如果不是以單一模型的方式設(shè)計(jì)的,而是采用的級(jí)聯(lián)模式,那么級(jí)聯(lián)本身就會(huì)帶來(lái)誤差,這個(gè)直觀上其實(shí)也很好理解,第一級(jí)輸出的誤差會(huì)被帶入到第二級(jí)。過(guò)往語(yǔ)音識(shí)別采用“聲學(xué)模型+語(yǔ)言模型”兩個(gè)正交維度分別建模的級(jí)聯(lián)模式設(shè)計(jì),現(xiàn)在更多都采用“端到端識(shí)別模型”統(tǒng)一建模了,也是優(yōu)化掉這種誤差??梢员划?dāng)成特征或者維度設(shè)計(jì)到一個(gè)模型里的,就盡量不要用級(jí)聯(lián)設(shè)計(jì)。
  6. 當(dāng)然還有一種誤差是模型本身可以做到多少效果,比如90%的效果,就這個(gè)模型這一環(huán)節(jié)有10%的誤差需要考慮。然后每一級(jí)的誤差和下一級(jí)的誤差之間是疊加關(guān)系,而不是簡(jiǎn)單加法。
  7. 有些任務(wù)天然需要對(duì)誤差保持高度敏感,例如生成式模型(例如大型語(yǔ)言模型GPT),相比于判別式模型,每一個(gè)環(huán)節(jié)的誤差都會(huì)被傳遞到下一次預(yù)測(cè)中被放大,因?yàn)檎Z(yǔ)言模型是逐字預(yù)測(cè)的,起初可能只是小數(shù)點(diǎn)后幾位的微小誤差,在最后會(huì)被放大到30%甚至50%的巨大誤差,像這類(lèi)任務(wù)需要對(duì)誤差高度敏感。

3年前當(dāng)初做過(guò)一個(gè)【無(wú)注冊(cè)聲紋識(shí)別系統(tǒng)】,這個(gè)系統(tǒng)是在用戶(hù)交互過(guò)程中,可以無(wú)感知的就實(shí)時(shí)判斷出“用戶(hù)是誰(shuí)”、“性別年齡情況如何”兩個(gè)重要畫(huà)像信息,而不需要用戶(hù)實(shí)現(xiàn)注冊(cè)自己的聲音,實(shí)現(xiàn)真正無(wú)感知。這個(gè)對(duì)于一些多人共用設(shè)備(例如電視、冰箱等家電)或者經(jīng)常有外人往來(lái)的地方(例畢竟外人不可能提前注冊(cè))有很廣的應(yīng)用前景。

簡(jiǎn)單設(shè)想一下,這項(xiàng)能力可以用來(lái)做以下兩件事:

  1. 用來(lái)實(shí)時(shí)做交互人的識(shí)別,識(shí)別到是誰(shuí)之后,可以把這個(gè)設(shè)備調(diào)整到這人的個(gè)性化設(shè)定上去,例如內(nèi)容推薦、鬧鐘習(xí)慣、閑聊風(fēng)格等等;
  2. 用來(lái)做推薦系統(tǒng),識(shí)別出是誰(shuí)之后,可以把個(gè)人的交互數(shù)據(jù)計(jì)算成畫(huà)像,讓公用設(shè)備也可以具備個(gè)性化推薦能力。

對(duì)以上兩個(gè)場(chǎng)景來(lái)說(shuō),“實(shí)時(shí)交互人識(shí)別”對(duì)于誤差的容忍度就很低,具體來(lái)說(shuō)其實(shí)是精準(zhǔn)度要求極高,因?yàn)檎`差會(huì)連續(xù)傳遞到全部服務(wù)上。實(shí)際上基于單純“聲學(xué)”或者“語(yǔ)言”一維到兩維信息的無(wú)注冊(cè)聲紋已經(jīng)效果已經(jīng)不可達(dá)了,需要引入視覺(jué)維度做“多模交互人識(shí)別”,或者干脆把系統(tǒng)做成注冊(cè)式聲紋。

“推薦系統(tǒng)”對(duì)于誤差的容忍度就相對(duì)高,具體來(lái)說(shuō)召回要求不高,就算一個(gè)人被識(shí)別成了兩個(gè)人,導(dǎo)致畫(huà)像計(jì)算數(shù)據(jù)變少,其實(shí)影響也很小,另一方面精準(zhǔn)度要求也不高,因?yàn)槠鋵?shí)即使識(shí)別錯(cuò)了,用戶(hù)也比較難感知到。

如果以上面的視角方式再回頭審視下“交互中挖掘需求”這件事,就會(huì)發(fā)現(xiàn)之前設(shè)計(jì)的流程存在很多問(wèn)題。

A. 首先其實(shí)是有個(gè)概念偷換,且不論只能評(píng)估【需求影響面】,【轉(zhuǎn)化率】則需要人工評(píng)估這種問(wèn)題,其實(shí)在定義“文本聚類(lèi)”子任務(wù)的時(shí)候,已經(jīng)是再用【表達(dá)范式影響面】在替換【需求影響面】了,可以大概理解成其實(shí)只能挖掘某個(gè)需求的某個(gè)意圖,例如“看XXX的(XX年上映的)電影”,其實(shí)這只是影視需求的一種表達(dá)范式。

即使加入了【知識(shí)】給模型提供了一定的泛化能力,也需要知道這種泛化相對(duì)有限,畢竟【知識(shí)】本身承載的范式就有限,而人的表達(dá)范式是無(wú)限的。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

B. 第二個(gè)當(dāng)然就是“分類(lèi)+聚類(lèi)”這種級(jí)聯(lián)結(jié)構(gòu),導(dǎo)致誤差傳遞,每一級(jí)的誤差都被放大了;

C. 還有問(wèn)題是如果帶入業(yè)務(wù)場(chǎng)景分析子任務(wù)流程,就會(huì)發(fā)現(xiàn)如果聚類(lèi)時(shí)候召回不足,會(huì)導(dǎo)致沒(méi)被召回的結(jié)果變成新需求,結(jié)果就是有【CAT1(影視1)】【CAT2(影視2)】等等同一需求多個(gè)子類(lèi)。同時(shí)業(yè)務(wù)上會(huì)發(fā)現(xiàn)如果我們每天的全量數(shù)據(jù)都拿去全量聚類(lèi),計(jì)算一次要48h,也就是說(shuō)輸入一批數(shù)據(jù)三天后才出結(jié)果,而系統(tǒng)還在不斷入數(shù)據(jù),越堆積越多,并且三天一看數(shù)據(jù)也不符合業(yè)務(wù)快速試錯(cuò)的要求。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

所以最后結(jié)合上述問(wèn)題,初版的設(shè)計(jì)問(wèn)題其中一種解法是改成以下的子任務(wù)和流程,最終的子任務(wù)并不是【聚類(lèi)+分類(lèi)】而是【分類(lèi)+聚類(lèi)+檢索+類(lèi)比對(duì)】的流式設(shè)計(jì),而流程也變成輪次聚類(lèi)的設(shè)計(jì)方式,具體分析過(guò)程就省略了,以下給出了大致的設(shè)計(jì)思路示意圖。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

② 冗余評(píng)估

這個(gè)一般是評(píng)估系統(tǒng)的效果上限、可優(yōu)化空間和優(yōu)化成本,比如如果系統(tǒng)已經(jīng)沒(méi)有太多優(yōu)化空間,也沒(méi)有其他正交維度可以引入了,那這個(gè)系統(tǒng)其實(shí)就是一錘子買(mǎi)賣(mài),后面的效果運(yùn)營(yíng)服務(wù)即使想做也沒(méi)有任何收益,商業(yè)角度看就應(yīng)該側(cè)重思考怎么降本了。如果存在優(yōu)化空間,也要衡量效果優(yōu)化的投入,效果每提升1個(gè)點(diǎn)需要的成本都是指數(shù)上升的,效果越高再優(yōu)化的成本也就越高,甚至可能就是重構(gòu)一套新解決方案,所以其實(shí)有些不產(chǎn)生流量?jī)r(jià)值收入的TO B生意經(jīng)常做成一錘子買(mǎi)賣(mài)。

4. 迭代階段

在談AI如何迭代發(fā)展之前,想先探討一下關(guān)于AI能力邊界的問(wèn)題。關(guān)于這個(gè)問(wèn)題,我個(gè)人意見(jiàn)認(rèn)為吳軍老師提到過(guò)的他的導(dǎo)師總結(jié)的人工智能三大問(wèn)題總結(jié)的最為精煉。

1)設(shè)計(jì)者意志:可以說(shuō)AI目前依舊是設(shè)計(jì)者意志的體現(xiàn),是設(shè)計(jì)者用他的設(shè)計(jì)意志代替了全人類(lèi)意志在設(shè)計(jì)。

關(guān)于這一點(diǎn),我一個(gè)關(guān)系要好的算法負(fù)責(zé)人講過(guò)他的觀點(diǎn)是AI是一種“重構(gòu)+共現(xiàn)”,我覺(jué)得可以直觀理解成一種高級(jí)復(fù)讀機(jī),不論是定義需要獲取的數(shù)據(jù),還是定義任務(wù),基于統(tǒng)計(jì)的AI還是一種對(duì)于信息的歸納和總結(jié),來(lái)復(fù)現(xiàn)輸入的信息量。

這其實(shí)代表使用的AI代表的就是設(shè)計(jì)者的意志。即使是大模型,我使用OpenAI的GPT4和Antropic的Cluade做東西,也發(fā)現(xiàn)兩者在輸出信息傾向和邏輯上有明顯不同,有興趣的可以到https://nat.dev/ 或者What is the Vercel AI Playground?試用下。

2)隱私性:AI的隱私性問(wèn)題和安全問(wèn)題討論已經(jīng)很多了,就不贅述了,近年的聯(lián)邦學(xué)習(xí)技術(shù)對(duì)這個(gè)問(wèn)題提供了一些有益的解決方向思路。

3)非連續(xù)性:這里涉及一個(gè)基本邊界問(wèn)題,AI的前提假設(shè)是涉及的事務(wù)都是連續(xù)的,但是實(shí)際上現(xiàn)實(shí)世界的很多事情都是離散的、稀疏的,這有可能是因?yàn)闆](méi)有收集到足夠的信息,有可能是更多信息本身無(wú)法被收集,這就造成:

  • 第一,并不是所有的問(wèn)題都可以被AI抽象。
  • 第二,實(shí)際上AI抽象現(xiàn)實(shí)問(wèn)題的時(shí)候,離散問(wèn)題會(huì)被當(dāng)做連續(xù)性問(wèn)題解決,導(dǎo)致誤差。

因?yàn)锳I可以簡(jiǎn)單理解為一種基于統(tǒng)計(jì)學(xué)的高級(jí)復(fù)讀機(jī),所以其實(shí)本質(zhì)上無(wú)法處理預(yù)料之外的情況,雖然可以對(duì)意外情況做一些兜底處理,但單靠模型的話,未定義的部分其實(shí)就相當(dāng)于在拋硬幣了。比如吳軍老師經(jīng)常舉一個(gè)例子,對(duì)于自動(dòng)駕駛來(lái)說(shuō),如果車(chē)不認(rèn)識(shí)“沙袋”,那車(chē)路上碰到沙袋就只能停下,或者極端一點(diǎn),一個(gè)人突然攔在車(chē)前面不走,車(chē)也只能停下,這就是非連續(xù)性。

為什么講這個(gè)呢,因?yàn)橐话愦蟮牡较蚝瓦@些限制就有關(guān)系,一般來(lái)講迭代的方向有幾種:

1)基于業(yè)務(wù)場(chǎng)景的基線版本,擴(kuò)展更多的業(yè)務(wù)其他應(yīng)用場(chǎng)景

  • 例如用于縮減成本的本地化方案:把計(jì)算轉(zhuǎn)移到本地,就可以節(jié)省云端服務(wù)器費(fèi)用;
  • 例如降低隱私問(wèn)題的聯(lián)邦學(xué)習(xí)方案:和區(qū)塊鏈的思路就有些相近。

2)提升到更好的效果

  • 以前的AI有一個(gè)大問(wèn)題是,如果不更新訓(xùn)練數(shù)據(jù),效果就會(huì)持續(xù)下降,當(dāng)然有些設(shè)計(jì)時(shí)候可以預(yù)留一些字典,可以后續(xù)靠填充字典數(shù)據(jù),不更新模型提升對(duì)于新數(shù)據(jù)的適應(yīng),減少下降趨勢(shì)。
  • 如果可以尋找到更好的流程,或者更精準(zhǔn)的子任務(wù)定義,可以大幅提升整個(gè)系統(tǒng)的效果。
  • 算法模型結(jié)構(gòu)本身的更新,這個(gè)問(wèn)題就相信你的算法負(fù)責(zé)人就可以了。

3)根據(jù)不同業(yè)務(wù)應(yīng)用場(chǎng)景的定制化

a. 比如前面提過(guò)的聲紋的例子,如果做家庭個(gè)人健康檔案,依據(jù)無(wú)注冊(cè)的聲紋就無(wú)法做到,因?yàn)闊o(wú)注冊(cè)聲紋的上限相對(duì)較低,優(yōu)勢(shì)在于便利和實(shí)時(shí)性。但這種場(chǎng)景需要至少95%以上的高精準(zhǔn)度才能使用,此時(shí)就要重新考慮方案。

b. 聲紋這個(gè)例子里,就可以使用注冊(cè)式聲紋(即現(xiàn)在大部分聲紋方案),先讓用戶(hù)說(shuō)幾句話,然后生成一個(gè)人,因?yàn)檫@種情況下可以人機(jī)耦合來(lái)解決噪音干擾問(wèn)題,可以保障。

  • i. 聚合數(shù)據(jù)完全純凈,因?yàn)槭侨斯?zhuān)門(mén)錄制的音頻嘛,后面只需要和這個(gè)聚合類(lèi)比對(duì)下是不是一個(gè)人就完了;
  • ii. 同時(shí)可以設(shè)計(jì)各種發(fā)音場(chǎng)景或者發(fā)音質(zhì)量校驗(yàn)標(biāo)準(zhǔn)(比如百度地圖錄制一個(gè)自己的發(fā)音人,就會(huì)校驗(yàn)音頻信噪比、音頻質(zhì)量、文本匹配度等等,總會(huì)提示音頻質(zhì)量不過(guò)關(guān)重錄),來(lái)讓訓(xùn)練數(shù)據(jù)的質(zhì)量變得無(wú)比高;

二、預(yù)訓(xùn)練帶來(lái)了什么變化

預(yù)訓(xùn)練首先是對(duì)于傳統(tǒng)的監(jiān)督學(xué)習(xí)的改變,Transformer這種有史以來(lái)最高效的特征抽取器的廣泛應(yīng)用,讓LM通過(guò)共享預(yù)訓(xùn)練模型的參數(shù)連接起各個(gè)任務(wù),GPT/Bert的兩種研究范式也就就此確立的。對(duì)于之前主要廣泛受關(guān)注的是以Bert為代表的“雙向語(yǔ)言模型預(yù)訓(xùn)練+應(yīng)用Fine-tuning”模式,使得語(yǔ)言模型適應(yīng)下游的任務(wù),基于預(yù)訓(xùn)練的思路,模型更大了,效果更好了,各種人工智能的最終任務(wù),諸如完形填空、目標(biāo)檢測(cè)、關(guān)鍵要素抽取、機(jī)器翻譯、自動(dòng)摘要、圖像識(shí)別、物品推薦等等均取得了不同程度的提升。

從我的視角來(lái)看,我對(duì)BERT范式的模型理解是這樣的:

1)模型的通用性差:雖然預(yù)訓(xùn)練讓模型適應(yīng)下游任務(wù),但是實(shí)際上應(yīng)用方面比較窄,這個(gè)可能和這種范式與人類(lèi)語(yǔ)言習(xí)慣的距離更遠(yuǎn),不如生成范式接近人類(lèi)的表達(dá),和Bert的訓(xùn)練數(shù)據(jù)也有相當(dāng)大的關(guān)系。

2)預(yù)訓(xùn)練的信息輸入量遠(yuǎn)高于以前的訓(xùn)練模式,通過(guò)大量提高輸入的方式必然會(huì)使得輸出有提升。因?yàn)槲依斫釧I算法本質(zhì)是壓縮輸入,已經(jīng)從輸入里總結(jié)歸納,并且在輸出端復(fù)現(xiàn)輸入,即使是生成式的算法也是這樣,例如大型語(yǔ)言模型加入COT可以使得結(jié)果的邏輯性和合理性更強(qiáng)。

3)數(shù)據(jù)和模型大小變化帶來(lái)的收益較低,原本效果上無(wú)法商用的一些方案和技術(shù),依舊無(wú)法商用。這個(gè)可能和模型本身的規(guī)模沒(méi)有達(dá)到某個(gè)量級(jí)有關(guān),因?yàn)橥瑯邮请p向的T5和BART在生成類(lèi)任務(wù)上也取得了不錯(cuò)的效果(BERT本身就不具備這種場(chǎng)景能力,不做談?wù)摚?/p>

4)模型量級(jí)在指數(shù)上升,且模型的規(guī)模擴(kuò)張速度已經(jīng)超過(guò)了摩爾定律的硬件性能提升速度,也就是說(shuō)就算拋開(kāi)效果提升了多少來(lái)看,成本的上升速度超過(guò)了收益,成本的上升速度有些過(guò)快了。關(guān)于這一點(diǎn)雖然openai和deepmind都分別測(cè)試了模型量級(jí)和數(shù)據(jù)量的縮放法則來(lái)說(shuō)明必要性,但是成本上升卻也是事實(shí)。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Pre-train, Prompt, and Predict: A Systematic Survey ofPrompting Methods in Natural Language Processing(https://arxiv.org/pdf/2107.13586.pdf)

這篇綜述文章很好的闡述了研究的范式發(fā)展思路,到GPT這一代的時(shí)候,Prompt方式已經(jīng)將任務(wù)調(diào)整到語(yǔ)言模型中進(jìn)行實(shí)現(xiàn)而不是讓語(yǔ)言模型適應(yīng)下游的任務(wù),這種方式帶來(lái)了相當(dāng)多的變化。

三、大模型的AI設(shè)計(jì)方式變化

1. 大模型帶來(lái)的變化:普通人的AI設(shè)計(jì)時(shí)代

Prompt標(biāo)識(shí)的第三波大模型的變化(我并不喜歡稱(chēng)這種方式是自回歸的語(yǔ)言模型的時(shí)代,或者單向語(yǔ)言模型的時(shí)代,至于原因下面會(huì)提到),從結(jié)果上來(lái)看,我覺(jué)得最大的變化是理解成本和應(yīng)用價(jià)值都向C端的一般用戶(hù)逐漸靠攏。

過(guò)去的AI其實(shí)從理解成本上來(lái)看,普通用戶(hù)很難理解是怎么一回事,因?yàn)槿伺cAI無(wú)法把完整的交流都通過(guò)人類(lèi)可以理解的方式進(jìn)行。就這好比文藝復(fù)興的時(shí)代,宗教比科學(xué)一直以來(lái)都更加容易被人接受,就是因?yàn)樽诮痰恼Z(yǔ)言交流方式距離一般人的直覺(jué)更近,大家可以無(wú)需學(xué)習(xí)很多科學(xué)知識(shí)就可以對(duì)這件事進(jìn)行理解和探討,而現(xiàn)在相同的事情正在大模型上發(fā)生。

第二點(diǎn)就是應(yīng)用價(jià)值的變化,過(guò)去的AI實(shí)際上在To C的普通消費(fèi)者上一直比較難產(chǎn)生直接價(jià)值,這實(shí)際上是“交互”這種AI應(yīng)用場(chǎng)景的困境,實(shí)質(zhì)上“交互”本身一直都很難找到一個(gè)能直接產(chǎn)生價(jià)值的點(diǎn),這也導(dǎo)致大量的To C的AI產(chǎn)品實(shí)際上的銷(xiāo)售模式很多都是依托供應(yīng)商分銷(xiāo)完成,這種模式實(shí)質(zhì)上很多廠商把貨物壓到分銷(xiāo)商手里,銷(xiāo)售環(huán)節(jié)就已經(jīng)算結(jié)束了,這里的具體原因我們不做深入探討。

但是大模型實(shí)際上改變了這個(gè)情況,從Chatgpt開(kāi)始,大量面向To C產(chǎn)生實(shí)際價(jià)值的產(chǎn)品需求被釋放了,對(duì)于大模型所有人都可以輕而易舉的想到幾個(gè)和自己有關(guān)的價(jià)值場(chǎng)景,可以說(shuō)To C的價(jià)值在大模型這里才真正被釋放了出來(lái)。

Prompt的方式,對(duì)于AI設(shè)計(jì)來(lái)說(shuō),其結(jié)果就是帶來(lái)了各個(gè)維度的AI設(shè)計(jì)門(mén)檻的變化,以及理解成本的極大降低,大模型時(shí)代可能只要具備基本的邏輯學(xué)修養(yǎng),就可以進(jìn)行AI產(chǎn)品設(shè)計(jì),讓我不禁感覺(jué)“人人都是AI設(shè)計(jì)者”的時(shí)代可能近在眼前了。所有人都可以很直白的理解AI可以做什么的時(shí)候,各種有趣好玩的AI應(yīng)用涌現(xiàn)就近在眼前了。

為什么到了GPT的方式才讓我產(chǎn)生這個(gè)感覺(jué),主要源自它帶來(lái)的一些人機(jī)交互方面的巨大變化。關(guān)于大模型技術(shù)國(guó)內(nèi)外論文已經(jīng)相當(dāng)多了,諸如RLHF、COT、Zero shot prompting等等,因?yàn)槲恼抡w整體更多分享個(gè)人見(jiàn)解,不是一篇技術(shù)分享文章,這些部分我只大概引用佐證說(shuō)明觀點(diǎn),明細(xì)就壓縮掉了,如果不了解相關(guān)的一些背景信息,可以直接看Openai、Antropic、Google、Deepmind、Meta、國(guó)內(nèi)外知名大學(xué)和研究機(jī)構(gòu)的論文,或者國(guó)內(nèi)外大佬的解讀博客。每個(gè)部分的佐證我都有引用標(biāo)注,如果想要了解到技術(shù)細(xì)節(jié)還是建議自己勤動(dòng)手吧。

1)人機(jī)交互界面變得自然,貼近人類(lèi)的交互界面

大模型帶來(lái)的一個(gè)核心變化之一是,過(guò)去的人機(jī)交互,機(jī)器只能理解有限范式的指令,而大模型做到了統(tǒng)一范式:

  • 在信息輸入時(shí),統(tǒng)一了范式使得多種類(lèi)型的輸入都可以作為信息輸入AI(T5論文論證了這一點(diǎn)),這其實(shí)意味著我們可能不需要逐個(gè)類(lèi)型任務(wù)設(shè)計(jì)不同的AI,例如圖像和文本都可以統(tǒng)一形式輸入同一個(gè)AI,然而實(shí)際上語(yǔ)言模型確實(shí)可以把這些連續(xù)性信息都抽象成語(yǔ)言進(jìn)行理解;
  • 因?yàn)閴嚎s了世界知識(shí),使得AI具備了通用的理解能力,而不是僅僅理解定義的有限范式,這其實(shí)另一方面也代表了語(yǔ)言模型具備輸出多種范式的內(nèi)容潛力,事實(shí)上本文談打的另一種圖像類(lèi)大模型擴(kuò)散模型,我覺(jué)得最終會(huì)被語(yǔ)言模型所替代掉。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(https://arxiv.org/abs/1910.10683)

人機(jī)交互界面是一個(gè)泛指,以完成人機(jī)交互需要交互人具備的專(zhuān)業(yè)能力要求來(lái)看,可以劃分為三個(gè)階段,下圖是我用Dell-E生成的表達(dá)人機(jī)交互界面發(fā)展階段的示意圖,雖然我盡力調(diào)整了,但是圖片依舊有點(diǎn)文不切題,這個(gè)讓我更加確信了現(xiàn)在的圖像生成一定需要語(yǔ)言模型的必要性:

① 專(zhuān)業(yè)人士+有限集能力:可以類(lèi)比“遙控器+電視機(jī)”的模式。

這種模式可以看成是經(jīng)過(guò)了兩次編碼,一次是人把需求轉(zhuǎn)化成遙控器的按鍵指令的編碼,一次是遙控器把接收到的指令編碼成執(zhí)行指令給到電視機(jī)執(zhí)行,所以一般這種產(chǎn)品都是具有學(xué)習(xí)成本的,即使是移動(dòng)時(shí)代的app也可以理解成這種模式,既然有學(xué)習(xí)成本,就不是所有人都天然會(huì)使用的,這也是為什么老年人很難學(xué)會(huì)的原因。

普羅大眾+有限集能力:這時(shí)已經(jīng)可以把“遙控器”這一個(gè)環(huán)節(jié)的編碼載體去除了,變成了“自然人+電視機(jī)”的交互模式。

人已經(jīng)可以通過(guò)自然語(yǔ)言和設(shè)備進(jìn)行交互了,但是這并不是需求不需要進(jìn)行編碼了,只是因?yàn)樽匀徽Z(yǔ)言這種需求編碼方式,人人都掌握了所以學(xué)習(xí)成本消失了。關(guān)于人類(lèi)使用自然語(yǔ)言對(duì)本身需求進(jìn)行編碼的效率問(wèn)題,這是另一個(gè)話題了,留給以后有機(jī)會(huì)再談吧。

上面這種模式實(shí)際上就可以理解成過(guò)去的自然語(yǔ)言處理范式,雖然使用門(mén)檻被降的很低,但是是依靠預(yù)定義的有限范式支持的,這里面需要大量的設(shè)計(jì)和算法人工定義工作,可預(yù)期的也是支持的自然語(yǔ)言范圍很窄,經(jīng)常不理解,算法在有限預(yù)定義集合上做各種語(yǔ)義泛化工作,但是實(shí)際上還是在追求有限集合上的輸入復(fù)現(xiàn)。

這種方式預(yù)定義擴(kuò)展的范式越多,用戶(hù)用起來(lái)就覺(jué)得越自然,支持的說(shuō)法越多,所以在之前的人機(jī)交互設(shè)計(jì)中,大家普遍圍繞線上用戶(hù)交互失敗的query,不斷挖掘、不斷豐富和擴(kuò)展自己的范式,讓用戶(hù)用的更爽。

普通大眾+通用能力:在這種模式下,大概可以理解成“電視機(jī)”本身也被一種萬(wàn)能工具替代了,大眾通過(guò)自然語(yǔ)言直接和需要的影片交互。

可以大致認(rèn)為這個(gè)時(shí)候用戶(hù)可以用自然語(yǔ)言發(fā)起各類(lèi)需求,而這些需求都可以被大模型編碼成執(zhí)行指令,直接給到資源方執(zhí)行。這也是大模型的重要的通用性的特性,我的理解是這個(gè)可以說(shuō)是數(shù)據(jù)帶來(lái)的,而不是AI本身的特性。關(guān)于這個(gè)特性在下面會(huì)談一下我對(duì)于這個(gè)“通用性”和“全知全能”之間的差距的理解。

其實(shí)看擴(kuò)散模型的Playground也可以看出這種演化趨勢(shì),Stable diffusion還需要具備一定的代碼能力才可以使用,到Dell-e和Midjourney已經(jīng)可以直接在網(wǎng)頁(yè)或者Discord上使用自然語(yǔ)言交互。

但是實(shí)際上,實(shí)現(xiàn)雖然Dell-e和Midjourney可以用自然語(yǔ)言交互,但是和普羅大眾的需求語(yǔ)言還是存在巨大差距,本質(zhì)上和Stable diffusion用機(jī)器代碼指令交互區(qū)別并不大,只是使用門(mén)檻降低了一些,本質(zhì)上還是需要以機(jī)器能夠理解的會(huì)話范式來(lái)說(shuō)話,例如下面是一個(gè)在Midjourney的Discord社區(qū)隨便翻了一個(gè)案例,專(zhuān)業(yè)語(yǔ)言的Prompt我是用GPT幫我寫(xiě)的。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Midjourney的Discord社區(qū)某個(gè)案例,文本我用翻譯軟件翻成中文了

交互界面的自然化,帶來(lái)的必然結(jié)果就是對(duì)使用人的專(zhuān)業(yè)技能要求少了,比如我們不需要會(huì)使用設(shè)計(jì)工具和代碼,就可以使用Midjourney,但是如果讓我們輸出專(zhuān)業(yè)的Prompt,就會(huì)需要一些專(zhuān)業(yè)知識(shí)。如果讓GPT來(lái)做專(zhuān)業(yè)語(yǔ)言prompt生成,也需要做到從設(shè)計(jì)語(yǔ)言層面做需求拆解,這其實(shí)依舊和普通人模糊不清的需求描述有差別。

這一部分的需求拆解工作是不能讓AI來(lái)執(zhí)行的,因?yàn)檫@件事沒(méi)有現(xiàn)有知識(shí)可以總結(jié),而是需要基于已有的少量輸入,推理出遠(yuǎn)超輸入的大量輸出。大型語(yǔ)言模型可見(jiàn)的問(wèn)題是不具備基于已有推理未知的能力,給的結(jié)果更多可以理解為是AI從數(shù)據(jù)總結(jié)歸納的結(jié)果,而不是推理的結(jié)果,這種結(jié)果可想而知是接近千篇一律的。

所以其實(shí)自然度也是有限度的,至少各專(zhuān)業(yè)領(lǐng)域的需求拆解工作目前并不會(huì)被替代,其實(shí)抽象一下也就是說(shuō),各個(gè)領(lǐng)域里面真正產(chǎn)生新信息的工作不可能被替代掉。

但是即使語(yǔ)言模型有能力邊界,其實(shí)這種程度的交互自然度已經(jīng)使得相當(dāng)多的專(zhuān)業(yè)性知識(shí)在實(shí)際使用中變得缺乏意義,但是我依舊認(rèn)為了解領(lǐng)域?qū)I(yè)知識(shí)的人才可以具備創(chuàng)造新信息的能力,不了解的人甚至不具備評(píng)價(jià)某一成果好壞的能力。

2)大模型的通用性,高成本領(lǐng)域定制方案的消失

過(guò)去的AI往往一種AI只能解決一種任務(wù),這就使得大千世界里形形色色的行業(yè)和領(lǐng)域都需要各種算法能力定制,但是GPT的預(yù)訓(xùn)練使得大模型表現(xiàn)出了對(duì)于人類(lèi)語(yǔ)言的通用理解能力和推理能力,因此在各種領(lǐng)域都顯示一定的基礎(chǔ)理解力和應(yīng)用潛力。

加之低成本定制方案FLAN、P-tuning、Lora的應(yīng)用,微調(diào)的技術(shù)證明了可以用少量數(shù)據(jù)強(qiáng)化大模型的指定方向的效果,這意味著通用人工智能+低成本的定制,取代了過(guò)去逐個(gè)場(chǎng)景定制的高成本方案,可能一般用戶(hù)見(jiàn)的最多的就是基于Stable Diffusion微調(diào)的各種風(fēng)格的圖像生成模型:

① Lamda和Alpaca的相關(guān)研究證明了只需要幾萬(wàn)指定方向的高質(zhì)量數(shù)據(jù)微調(diào)就可把指定方向的效果拉升到可用水平,相比于天文數(shù)字的預(yù)訓(xùn)練來(lái)說(shuō),這個(gè)量級(jí)的數(shù)據(jù)可以很快收集到。

這意味著具備了“一個(gè)通用大模型+低成本定制領(lǐng)域方案”的一套解決方案可以低成本,并且快速的實(shí)現(xiàn)基于通用大模型的各領(lǐng)域應(yīng)用定制工作。斯坦福的論文闡述這一項(xiàng)工作開(kāi)銷(xiāo)低于500美元,斯坦福使用的LLaMa模型較小,但是依舊有很強(qiáng)的參考意義。舉個(gè)例子,如果我需要把強(qiáng)化大模型的多樣性,我只需要幾萬(wàn)的Finetune或者P-tuning的多樣性數(shù)據(jù)集來(lái)調(diào)整即可。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Alpaca: A Strong, Replicable Instruction-Following Model(https://crfm.stanford.edu/2023/03/13/alpaca.html)

② Lora在NLP領(lǐng)域以及圖像領(lǐng)域Stable Diffusion的廣泛應(yīng)用,使得可以在不對(duì)大模型進(jìn)行有損調(diào)整的情況下,低成本的強(qiáng)化指定場(chǎng)景效果。從下圖可以看出,相比于Finetune需要調(diào)整的參數(shù),Lora調(diào)整的參數(shù)規(guī)模和達(dá)到效果實(shí)在可觀,這意味著Lora的微調(diào)成本更低,成效更好。當(dāng)然Lora可能更加適合單任務(wù)或者單特性的強(qiáng)化,對(duì)于多任務(wù)或者模型整體的調(diào)整可能并不適合通過(guò)Lora解決。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS(https://arxiv.org/pdf/2106.09685.pdf)

另一方面,大模型的通用性代表,即使無(wú)法收集到一些某些領(lǐng)域的數(shù)據(jù),依靠大模型的通用能力+Prompt提示的方式,也可以實(shí)現(xiàn)在指定領(lǐng)域不錯(cuò)的效果,即使沒(méi)有在指定領(lǐng)域進(jìn)行過(guò)精調(diào)。

實(shí)際上,在實(shí)踐中也發(fā)現(xiàn)如果是通過(guò)Tuning的方式實(shí)現(xiàn),一般精調(diào)的數(shù)據(jù)集并不宜過(guò)多,過(guò)多的數(shù)據(jù)集會(huì)導(dǎo)致大模型原本特性和能力效果出現(xiàn)下降,可能對(duì)話的相關(guān)性和多輪連續(xù)性都會(huì)受到很大的影響。所以目前似乎精簡(jiǎn)的高質(zhì)量集合是相對(duì)合理的,如何精簡(jiǎn)精調(diào)數(shù)據(jù)集本身又是一項(xiàng)充滿(mǎn)門(mén)道的事情。

大模型的通用性來(lái)源于對(duì)世界的壓縮,可以認(rèn)為大模型把整個(gè)人類(lèi)世界壓縮作為了輸入,因此大模型才可以做到在用戶(hù)僅僅給出很少量信息的問(wèn)題時(shí),可以輸出遠(yuǎn)超過(guò)輸入端信息量的輸出。

在移動(dòng)互聯(lián)時(shí)代,大家還在講信息爆炸的影響,但是現(xiàn)在對(duì)于大模型來(lái)說(shuō),數(shù)據(jù)渴求已經(jīng)是一個(gè)更普遍的現(xiàn)象。世界上的很多信息并不存在于互聯(lián)網(wǎng)上,因此即使把整個(gè)互聯(lián)網(wǎng)那個(gè)的信息輸入大模型,通用性依舊是有限的,這個(gè)其實(shí)就會(huì)需要能夠收集線下模態(tài)信息的模型出現(xiàn)。

從另一個(gè)維度講,即使現(xiàn)在模型的膨脹速度已經(jīng)超越了摩爾定律的硬件擴(kuò)張速度,大模型對(duì)于世界的壓縮效率也是很恐怖的,我并不知道這個(gè)會(huì)不會(huì)影響到信息論信息量計(jì)算公式的基本定理,但是只要大模型依舊按照統(tǒng)計(jì)的路線,信息論的基本原理始終是生效的。對(duì)于算法人員來(lái)說(shuō),大模型的通用性意味著算法可能真的是在革自己的命,首先收到?jīng)_擊影響的可能是算法從業(yè)者。

但是其實(shí)上面說(shuō)的大模型的通用性,并不是真正可以實(shí)現(xiàn)多種現(xiàn)實(shí)任務(wù)的“多任務(wù)人工智能”,關(guān)于真正的多任務(wù)人工智能,目前依舊停留在學(xué)界的理論上,但是真正的通用AI我覺(jué)得還需要等待多任務(wù)的人工智能的進(jìn)步。

3)“效果上不可達(dá)”可能可以根本解決

Google的經(jīng)典論文闡述在模型參量達(dá)到13B(10^22)以后,大模型涌現(xiàn)出沒(méi)有定義過(guò)的新能力,這項(xiàng)新能力的效果,在參數(shù)量達(dá)到量級(jí)之后,很多原本效果接近于隨機(jī)的任務(wù),效果突然出現(xiàn)大幅度的提升。

雖然一些論文闡述評(píng)估方法具有平滑性的問(wèn)題,但是效果出現(xiàn)了跨越式提升卻是事實(shí)。一個(gè)直觀的感覺(jué)就是,如果對(duì)比過(guò)GPT4和Chatgpt,或者更小的語(yǔ)言模型比如Alpaca,其實(shí)就會(huì)發(fā)現(xiàn),小語(yǔ)言模型對(duì)于語(yǔ)言本身的理解更像是一種范式模仿,不具備語(yǔ)言的邏輯連續(xù)性和推理能力,即小語(yǔ)言模型其實(shí)沒(méi)有理解語(yǔ)言這件事本身,而GPT4已經(jīng)在逐漸逼近理解這件事,雖然它依舊存在很多問(wèn)題。

對(duì)于大語(yǔ)言模型來(lái)說(shuō),因?yàn)閷?duì)于語(yǔ)言的理解更加高維和深層,從而出現(xiàn)了一些Emergent Abilities,原本效果上不可行的任務(wù)都變得可商用了,因?yàn)槲覀兛梢约南M诎殡S著訓(xùn)練數(shù)據(jù)規(guī)模和模型參量的提升,大模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到一些更深層的語(yǔ)言知識(shí),transformer的中層和高層得到更充分的利用。這意味著設(shè)計(jì)需要的經(jīng)驗(yàn)和能力要求大幅降低了:

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Emergent Abilities of Large Language Models(https://arxiv.org/abs/2206.07682)

① 在上文提到之前AI設(shè)計(jì)方式的例子中,由于一些子任務(wù)不可行而需要進(jìn)行復(fù)雜任務(wù)流程和子任務(wù)重新定義的設(shè)計(jì)不再需要了,設(shè)計(jì)可以被極大的簡(jiǎn)化。

② 原本需要資深人士經(jīng)驗(yàn)推斷才能判斷一項(xiàng)任務(wù)是否可行,或者效果能達(dá)到什么程度的經(jīng)驗(yàn)判斷變得意義較?。ɑ蛘呖赡茏兊脽o(wú)法評(píng)估,因?yàn)闊o(wú)法推斷模型擴(kuò)張到什么程度會(huì)引發(fā)能力涌現(xiàn))?!炯夹g(shù)可達(dá)性】這個(gè)問(wèn)題原本是需要踩過(guò)很多坑,有大量子任務(wù)經(jīng)驗(yàn),這類(lèi)資深的設(shè)計(jì)人員,可以讓公司在設(shè)計(jì)和驗(yàn)證方案階段的成本最小化,這一原本AI方案設(shè)計(jì)的巨大門(mén)檻,被基本消除了,各種方案都有可能在某個(gè)量級(jí)下能夠成立,可能真正的條條大路通羅馬了。

這其實(shí)引發(fā)我思考一個(gè)恐慌的問(wèn)題,就是AI是否擺脫了“設(shè)計(jì)者意志”,是否設(shè)計(jì)者都不再需要了。但是這件事即使我在Openai的Discord也較少看到討論(我發(fā)出的提問(wèn)也并沒(méi)有人回應(yīng)),就我的對(duì)于大語(yǔ)言模型的使用體會(huì),結(jié)合個(gè)人理解以及和算法朋友的討論,我個(gè)人直觀上感覺(jué)Emergent abilities可能與兩種情況有關(guān)聯(lián):

① 是和人工定義的原始子任務(wù)存在一些關(guān)聯(lián)的,可能語(yǔ)言模型學(xué)到了一些更高層次的潛在語(yǔ)言關(guān)聯(lián),這個(gè)現(xiàn)象并沒(méi)有辦法在任意一個(gè)任務(wù)上就憑空出現(xiàn)。

② 因?yàn)槟P蛿?shù)據(jù)量和規(guī)模的擴(kuò)大,模型從語(yǔ)言本身學(xué)到了更深層的東西,把他們存儲(chǔ)在了transformer中。

下面有一個(gè)例子是我使用中發(fā)現(xiàn)的一種典型現(xiàn)象,如果GPT-4幫助你決策,在引導(dǎo)下GPT-4可以主動(dòng)詢(xún)問(wèn)一些做決策缺失的信息,并做到穩(wěn)定復(fù)現(xiàn),但是Chatgpt即使給出Prompt也無(wú)法穩(wěn)定實(shí)現(xiàn)。這個(gè)應(yīng)該就是語(yǔ)言模型慢慢具備了“常識(shí)”,國(guó)內(nèi)很多復(fù)刻的大模型其實(shí)主要不足也就在這里。

但是“常識(shí)”其實(shí)我覺(jué)得是一個(gè)很抽象的詞匯,它可能包括了“歷史的沿襲”、“主體和主體屬性”、“主體間關(guān)系”等很多方面,這些問(wèn)題也放在下篇文章再討論吧。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

③ 模型和數(shù)據(jù)量的擴(kuò)大,導(dǎo)致模型對(duì)于語(yǔ)言的表達(dá)理解更深了,同樣的一句話GPT4已經(jīng)都可以理解,Chatgpt則會(huì)給出完全不同的回應(yīng),雖然每種回應(yīng)包含的信息量都有巨大差異,但是即使選擇信息量最小的一種提示方式,GPT4也可以立刻反應(yīng)過(guò)來(lái),而這種非顯性的交流,更加接近真實(shí)場(chǎng)景中人的會(huì)話方式:

  • 你沒(méi)有什么需要我提供的信息來(lái)提供具體建議嗎(反問(wèn)+質(zhì)疑+提示)
  • 你沒(méi)有什么要問(wèn)我的嗎(反問(wèn)+質(zhì)疑)
  • 你有什么要問(wèn)我的嘛(缺失提示信息,也沒(méi)有反問(wèn)和質(zhì)疑態(tài)度)

BIG-BENCH中有類(lèi)似的Sufficient Information測(cè)試任務(wù)集合(https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks/sufficient_information),但是我感覺(jué)big-bench上的測(cè)試集偏向于知識(shí)推理(e.g., How much water is in a full 4 inch tall cylindrical glass? Answer: what is the radius of the glass?).而不是一些基于社會(huì)運(yùn)行常識(shí)的一些推理,例如著裝需要依據(jù)不同的工作性質(zhì)、場(chǎng)合、性別、外貌特點(diǎn)以及個(gè)人希望他人對(duì)自己形成的社會(huì)認(rèn)知。

至少?gòu)奈規(guī)讉€(gè)月的使用體驗(yàn)中,我認(rèn)為AI依舊存在“設(shè)計(jì)者意志問(wèn)題”,甚至因?yàn)槲⒄{(diào)對(duì)于激發(fā)模型表現(xiàn)的巨大影響,以及預(yù)訓(xùn)練數(shù)據(jù)的范式對(duì)于模型語(yǔ)言理解傾向的巨大影響,設(shè)計(jì)者通過(guò)數(shù)據(jù)向語(yǔ)言模型施加的影響更大了。關(guān)于預(yù)訓(xùn)練范式如何影響語(yǔ)言模型的問(wèn)題下面會(huì)再另外談到。

4)很多中間子任務(wù)變得沒(méi)有意義

大模型導(dǎo)致很多的AI中間子任務(wù)不再具有意義,很多問(wèn)題可以端到端的直接解決,這不僅是很多AI的子任務(wù)失去了研究意義,很多業(yè)務(wù)子流程設(shè)計(jì)的時(shí)候也不再需要轉(zhuǎn)化成繁瑣的AI子任務(wù),可能僅僅依靠基本的邏輯素養(yǎng),只要制定出合理的任務(wù)路徑,就可以期待大模型可以端到端的直接解決此類(lèi)問(wèn)題。

舉個(gè)例子,假設(shè)我們想設(shè)計(jì)一個(gè)基于情感的聊天會(huì)話系統(tǒng)(先不考慮知識(shí)和常識(shí)怎么來(lái)的問(wèn)題),在以前會(huì)可能需要做如下的任務(wù)分解:

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

在上面的任務(wù)流程里,“會(huì)話歷史的理解與關(guān)鍵抽取”、“會(huì)話情景的綜合分析”、“主動(dòng)挑起話題的能力”、“話題主體的預(yù)測(cè)與選擇”、“風(fēng)格化”等等都需要單獨(dú)制定方案逐一解決。

這種思路在過(guò)往的AI設(shè)計(jì)中很常見(jiàn),因?yàn)闊o(wú)法端到端直接輸出想要的結(jié)果,就把一個(gè)任務(wù)拆解細(xì)碎的小任務(wù)組合,最早的語(yǔ)音識(shí)別是將任務(wù)分解成識(shí)別音節(jié)、詞性、語(yǔ)法等小任務(wù)(即使現(xiàn)在語(yǔ)音識(shí)別分成聲學(xué)和語(yǔ)言?xún)蓚€(gè)維度,也是放在統(tǒng)一端到端模型了)。

而之前對(duì)于情感這件事,具體的AI子任務(wù)會(huì)有更加細(xì)碎的分解,例如之前小米對(duì)于情感對(duì)話這塊的實(shí)踐就是這樣的思路,把情感這件事拆分成“Exploration”、“Comforting”和“Action”三步來(lái)實(shí)現(xiàn),并且借鑒了Maarten Sap 等人建構(gòu)“if-then”圖譜的思路。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation(https://arxiv.org/pdf/2203.13560.pdf)

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning(https://arxiv.org/pdf/1811.00146v3.pdf)

而對(duì)于大模型來(lái)說(shuō),我只需要定義好情感的精調(diào)數(shù)據(jù)應(yīng)該長(zhǎng)成什么樣子,就可以借助精調(diào)數(shù)據(jù)激發(fā)大模型的能力,端到端的實(shí)現(xiàn)情感會(huì)話。這樣的端到端設(shè)計(jì)方式直接導(dǎo)致了三個(gè)結(jié)果:

  • 專(zhuān)業(yè)的子任務(wù)定義工作不需要了,設(shè)計(jì)者甚至不需要理解子任務(wù)是什么,人工智能存在哪些子任務(wù)這些基本知識(shí),就可以上手做設(shè)計(jì)。
  • 任務(wù)拆解和路徑拆解的工作變得非常簡(jiǎn)單,因?yàn)椴淮嬖谛Ч豢蛇_(dá),并且問(wèn)題只需要端到端解決,看起來(lái)沒(méi)必要分析任務(wù)的構(gòu)成要素,拆解解決路徑了。甚至目標(biāo)本身可能就是任務(wù),例如“我需要一種面向老年用戶(hù)情感陪伴的聊天系統(tǒng)”,可能直接就是這個(gè)目標(biāo)唯一也是不需要分解的任務(wù)。
  • 數(shù)據(jù)的重要性變得比預(yù)訓(xùn)練時(shí)代還要重要,以前我們可以認(rèn)為要達(dá)到很好的效果,模型占20%,數(shù)據(jù)占80%,現(xiàn)在數(shù)據(jù)的比重再度提高了。這也導(dǎo)致了一個(gè)問(wèn)題,就是數(shù)據(jù)集定義和設(shè)計(jì)的怎么樣,就直接決定了最終效果。機(jī)器學(xué)習(xí)的名言“trash in,trash out”,可以說(shuō)在大模型中會(huì)得到極致的體現(xiàn),大模型對(duì)于數(shù)據(jù)的敏感性比過(guò)去的模型都更高,3%的訓(xùn)練集噪音就可以直接毀掉整個(gè)系統(tǒng),使系統(tǒng)變得根本無(wú)法使用,而在以前,這個(gè)噪音容忍度可能是5%或者更高。

看起來(lái)既不需要做路徑拆解也不需要做子任務(wù)定義了,但是我覺(jué)得其實(shí)這更加考驗(yàn)對(duì)于“情感”這件事的本質(zhì)理解了,畢竟定義出來(lái)數(shù)據(jù)集長(zhǎng)什么樣就直接影響了最終的輸出效果,“數(shù)據(jù)集應(yīng)該是什么樣的”這個(gè)問(wèn)題可能更考驗(yàn)對(duì)于社會(huì)學(xué)、腦科學(xué)、家國(guó)文化、心理等方面的理解,以及對(duì)于“會(huì)話”這件事的本質(zhì)理解。

5)大模型的應(yīng)用會(huì)有哪些問(wèn)題

打造一個(gè)大模型需要巨大的訓(xùn)練費(fèi)用和調(diào)用費(fèi)用,這一部分在很多大模型的工程復(fù)現(xiàn)文章中都有成本的詳細(xì)論證,就不做贅述。想談幾個(gè)被較少提及的應(yīng)用問(wèn)題,但是包括訓(xùn)練和調(diào)用成本在內(nèi),這些問(wèn)題并不是無(wú)解的,只是需要行業(yè)內(nèi)共同大模型的健康發(fā)展去逐步解決。

① 成本問(wèn)題展望

A. 成本的擴(kuò)張

關(guān)于目前“AI模型規(guī)模的增長(zhǎng)速度超過(guò)了摩爾定律的硬件擴(kuò)展速度”各種論證和說(shuō)明有很多,但是當(dāng)下這個(gè)輿論風(fēng)向的話,可能Sam Altman的說(shuō)辭更有說(shuō)服力一些吧。眾所周知,AI的效果每提升一點(diǎn),模型規(guī)模和需要的計(jì)算資源都是指數(shù)上升的,一定不止摩爾定律的兩倍這么多。當(dāng)然摩爾定律本質(zhì)上也是商業(yè)行為逆推整個(gè)行業(yè)技術(shù)改進(jìn)速度的案例,所以Sam Altman這個(gè)很有當(dāng)年英特爾和微軟那味。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

另一件事是,目前互聯(lián)網(wǎng)上可得到和使用的數(shù)據(jù),相比于目前模型消耗數(shù)據(jù)的速度已經(jīng)顯得有些不夠用了,尤其是信噪比低的高質(zhì)量數(shù)據(jù)可見(jiàn)的十分有限。這導(dǎo)致后面有可能需要從線下去收集數(shù)據(jù)進(jìn)行線上化,線下數(shù)據(jù)的線上化本身對(duì)于資源的消耗就可見(jiàn)的十分巨大。比如看看Palm-E消耗的資源量和達(dá)成的效果,就可以理解線下維度的數(shù)據(jù)收集有多么困難。

B. 成本下降的展望

算法優(yōu)化的本質(zhì),我的理解是不斷的提高無(wú)損壓縮信息的壓縮比,因此可以以更小的資源消耗實(shí)現(xiàn)等同的效果本身就是算法的優(yōu)化目標(biāo)。

在模型規(guī)模指數(shù)級(jí)的提升背景下,OpenAI自2019年開(kāi)始,也提出了需要模型運(yùn)行效率的問(wèn)題。另一方面這個(gè)問(wèn)往往不至于算法本身,很多工程化的手段都可以在效果不損失的前提下,在很短的時(shí)間內(nèi)把計(jì)算消耗降低一到幾個(gè)數(shù)量級(jí)。GALM和HunggingGPT讓一部分專(zhuān)家系統(tǒng)起作用,而不是整個(gè)系統(tǒng)起作用也是一種思路。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Measuring the Algorithmic Efficiency of Neural Networks(https://cdn.openai.com/papers/ai_and_efficiency.pdf)

第二個(gè)有幫助的點(diǎn)是,可以通過(guò)增加訓(xùn)練數(shù)據(jù)量使同等規(guī)模大小下模型得到更充分的訓(xùn)練,這樣雖然對(duì)于一次性的訓(xùn)練成本有上升,但是在調(diào)用模型時(shí)候這種流動(dòng)成本可以降低。

雖然openai(Scaling Laws for Neural Language Models)和deepmind(Training Compute-Optimal Large Language Models)有通過(guò)實(shí)驗(yàn)給出最佳的模型規(guī)模和訓(xùn)練數(shù)據(jù)量匹配比例,但是不論如何訓(xùn)練數(shù)據(jù)量單獨(dú)擴(kuò)增對(duì)于充分訓(xùn)練之前的效果提升也有很大的幫助。另一方面,精調(diào)數(shù)據(jù)集對(duì)于效果幫助則更大,InstructGPT已經(jīng)證明經(jīng)過(guò)精調(diào)的小模型性能表現(xiàn)上甚至可以超過(guò)大模型。

目前的這種稀疏的大模型,在實(shí)際推理時(shí),只有模型的一部分參數(shù)在起作用,通過(guò)進(jìn)一步理解大模型的作用原則,我覺(jué)得后面通過(guò)控制部分參數(shù)參與推理來(lái)實(shí)現(xiàn)成本的下降可能也是可行的。另一方面一個(gè)分發(fā)大模型+一堆專(zhuān)家小模型的MOE思路也可以大幅降低成本,例如GLam雖然參量是GPT3的七倍多,但是實(shí)際上成本卻比GPT3少得多。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts(https://arxiv.org/pdf/2112.06905.pdf)

當(dāng)然這一部分是純粹的算法和工程問(wèn)題,我覺(jué)得了解可行性與方向即可,專(zhuān)業(yè)的問(wèn)題還是就留給專(zhuān)業(yè)的人解決。

② 合規(guī)和人機(jī)合作的定位

對(duì)于GPT來(lái)說(shuō),本質(zhì)上生成內(nèi)容是不可控的,其實(shí)從微軟和Google在開(kāi)始推廣前,都開(kāi)掉了自己的合規(guī)團(tuán)隊(duì)就可以看出一些端倪。在我理解里處理方式無(wú)非是幾種:

  1. 引導(dǎo):通過(guò)引入人工反饋強(qiáng)化和精調(diào)來(lái)對(duì)大模型的輸出方向進(jìn)行引導(dǎo);
  2. 后處理:也就是加一些規(guī)則處理做敏感過(guò)濾,這個(gè)最容易想到,大模型廠商也都有做;
  3. 清洗數(shù)據(jù):這個(gè)是最徹底的,但是也是最難的,因?yàn)橐环矫媲逑磾?shù)據(jù)或者強(qiáng)制給模型預(yù)設(shè)某些條件,會(huì)導(dǎo)致模型的性能下降;另一方面精調(diào)數(shù)據(jù)的清洗還好,預(yù)訓(xùn)練數(shù)據(jù)的清洗是一個(gè)世界難題,雖然有研究證明似乎可以精準(zhǔn)定位到發(fā)生問(wèn)題的訓(xùn)練數(shù)據(jù)和模型局部,但是路還是很遠(yuǎn)。

綜合來(lái)看,對(duì)于GPT來(lái)說(shuō),人機(jī)合作的設(shè)計(jì)路線更加合理。過(guò)去的人機(jī)交互意志有一個(gè)比較尷尬的實(shí)際問(wèn)題,就是to c其實(shí)很難產(chǎn)生直接價(jià)值,to b雖然產(chǎn)生了價(jià)值,但是往往敏感性很高,可控性這個(gè)可能是過(guò)去Bert路線這么受追捧的原因。

但是對(duì)于可控性較差的GPT而言,可能AI作為輔助角色,引入人工干預(yù)可能是未來(lái)的長(zhǎng)期路線。類(lèi)似自動(dòng)駕駛形態(tài)的人機(jī)合作,最有可能成為大模型的產(chǎn)品定位終局,比如大模型可能不能直接成為家教,但是可以成為家長(zhǎng)教育孩子最好的輔助工具。

這件事如果從系統(tǒng)論思考,結(jié)論也是類(lèi)似的。從系統(tǒng)論來(lái)說(shuō),一個(gè)不受管理的封閉系統(tǒng)始終是熵增趨勢(shì),會(huì)逐步走向無(wú)序與混亂,而解決熵增的方式就是與外部系統(tǒng)建立關(guān)系,引入負(fù)熵,讓系統(tǒng)無(wú)序性降低。

對(duì)于人這個(gè)系統(tǒng)來(lái)說(shuō),與其他外部系統(tǒng)之間的負(fù)熵引入尤其重要,如果AI本身都是讓人在自己的圈子里去活動(dòng),那只會(huì)讓整個(gè)系統(tǒng)越來(lái)越無(wú)序和混亂,所以AI如何成為輔助鏈接外部負(fù)熵的輔助,從系統(tǒng)論視角來(lái)看這個(gè)可能是終局,其實(shí)這種熵增變化對(duì)于AI本身也是一樣。

③國(guó)產(chǎn)化的精度問(wèn)題

受美國(guó)制裁影響對(duì)于大模型本身其實(shí)影響很大,且不說(shuō)先進(jìn)軟件技術(shù)都在美國(guó)的問(wèn)題,國(guó)產(chǎn)化的計(jì)算芯片和NVIDIA的差距就會(huì)對(duì)大模型輸出效果造成巨大影響。就像上面提到的,GPT這種生成式模型對(duì)于每一個(gè)字預(yù)測(cè)的誤差都很敏感,因?yàn)檎`差會(huì)被逐級(jí)放大,在過(guò)去幾億參數(shù)較小規(guī)模的生成模型上經(jīng)驗(yàn)來(lái)看,國(guó)產(chǎn)化因?yàn)楦↑c(diǎn)計(jì)算的小數(shù)點(diǎn)位后2-3位開(kāi)始和NVIDIA產(chǎn)生偏差,同樣的模型在國(guó)產(chǎn)化芯片和NVIDIA上一致性只有差不多50%-60%,而這種問(wèn)題在大模型上會(huì)被放大的更加劇烈。

目前國(guó)內(nèi)還有一些渠道獲取A100或者A800,但后續(xù)感覺(jué)還是要看國(guó)產(chǎn)化芯片計(jì)算精度,畢竟對(duì)生成式模型來(lái)說(shuō),不光是計(jì)算資源是否足夠問(wèn)題,計(jì)算精度一位的差異都會(huì)在逐漸生成的過(guò)程中被無(wú)限的放大。

④ 數(shù)據(jù)渴求與模型規(guī)模

對(duì)于大模型來(lái)說(shuō),模型規(guī)模越大,訓(xùn)練數(shù)據(jù)越多,模型效果就越好。那么對(duì)于大模型來(lái)說(shuō),目前的數(shù)據(jù)是否夠用呢?會(huì)不會(huì)出現(xiàn)現(xiàn)實(shí)世界中的數(shù)據(jù)被消耗完,從而達(dá)到AI能力極限的問(wèn)題呢?

這個(gè)問(wèn)題此前的估算模型是OpenAI輸出的訓(xùn)練數(shù)據(jù)和模型規(guī)模的配比,但是按照Deepmind團(tuán)隊(duì)最新的Chinchilla的評(píng)估提出了修正,假設(shè)按照Chinchilla測(cè)算,模型規(guī)模和訓(xùn)練數(shù)據(jù)應(yīng)該1:1同比擴(kuò)大,可以說(shuō)目前的大模型都屬于訓(xùn)練數(shù)據(jù)量不足,訓(xùn)練不充分的階段。比如以GPT3的1750億參數(shù)規(guī)模,至少訓(xùn)練數(shù)據(jù)應(yīng)該擴(kuò)充11倍以上。下表是論文給出的三種不同評(píng)估方法的一些評(píng)估值。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Training Compute-Optimal Large Language Models(https://arxiv.org/pdf/2203.15556.pdf)

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Training Compute-Optimal Large Language Models(https://arxiv.org/pdf/2203.15556.pdf)

按照充分訓(xùn)練發(fā)揮模型最大效能的方式來(lái)進(jìn)行,現(xiàn)行的數(shù)據(jù)量足夠支撐模型訓(xùn)練嗎?會(huì)不會(huì)出現(xiàn)數(shù)據(jù)不足的情況?我覺(jué)得這個(gè)問(wèn)題有這么幾點(diǎn)已知信息:

  • 按照Chinchilla的評(píng)估,我大概認(rèn)為要實(shí)現(xiàn)ChatGPT或者GPT4的效果,可能需要的模型參數(shù)量要小得多,但是訓(xùn)練數(shù)據(jù)量和訓(xùn)練充分度要大得多,可能從效率上來(lái)說(shuō)合理的事更小的模型更多的數(shù)據(jù)。而目前的ChatGPT或者GPT4其實(shí)效果已經(jīng)相當(dāng)可觀了。
  • GPT4的訓(xùn)練集tokens數(shù)量比ChatGPT可能要大至少一個(gè)數(shù)量級(jí),但是從之前的45T清洗到1T的訓(xùn)練集來(lái)看,依舊是英文互聯(lián)網(wǎng)的一部分。目前的英文互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)集依舊有相當(dāng)多可以被用于拓展訓(xùn)練集。
  • 中文互聯(lián)網(wǎng)上,我記得在哪里看到過(guò)有人清洗了幾百T的數(shù)據(jù)集只得到了幾T的訓(xùn)練集。從常識(shí)來(lái)看,中文互聯(lián)網(wǎng)的高質(zhì)量數(shù)據(jù)集也很少,因?yàn)榛ヂ?lián)網(wǎng)發(fā)展時(shí)間短,很遺憾像百科、各類(lèi)圖書(shū)的電子化、國(guó)際高質(zhì)量學(xué)術(shù)論文平臺(tái)和雜志,這種高質(zhì)量信息建設(shè)的工作在中文互聯(lián)網(wǎng)很少。各類(lèi)線下高質(zhì)量數(shù)據(jù)的線上化程度也不高,所以中文的高質(zhì)量數(shù)據(jù)集是否足夠這個(gè)問(wèn)題我覺(jué)得是有很大疑問(wèn)的。

2. 設(shè)計(jì)方式的變化:設(shè)計(jì)者最好的時(shí)代來(lái)了

目前的大模型來(lái)看,雖然可以替代一些專(zhuān)業(yè)工作者的工作,甚至于算法研究本身的工作,但是依舊擺脫不了設(shè)計(jì)者意志問(wèn)題。因?yàn)榇竽P驮谛Ч虾屯ㄓ眯陨系木薮筮M(jìn)步,突破了之前的AI能力邊界,各行各業(yè)被能力邊界壓制的需求都涌現(xiàn)了出來(lái)。所以確實(shí)可以說(shuō),設(shè)計(jì)者大展拳腳的時(shí)代來(lái)了。

① 大模型時(shí)代AI設(shè)計(jì):端到端設(shè)計(jì)方式&極端的數(shù)據(jù)主導(dǎo)權(quán)

大模型對(duì)于效果的突破進(jìn)展,以及其設(shè)計(jì)思路,沖擊性的改變了三件事情:

  1. 依靠語(yǔ)言模型一種技術(shù)解決了過(guò)去需要多重任務(wù)、級(jí)聯(lián)設(shè)計(jì)才能解決的問(wèn)題;
  2. LLM同時(shí)解決了多種任務(wù),雖然達(dá)不到真正的多任務(wù)人工智能水準(zhǔn),但是可解決的問(wèn)題范圍已經(jīng)相當(dāng)大(關(guān)于這一點(diǎn)后面講大模型應(yīng)用會(huì)談到);
  3. 數(shù)據(jù)變得無(wú)比重要,無(wú)論是“數(shù)據(jù)集的質(zhì)量”還是“覆蓋到世界知識(shí)的可收集維度”都分別在【精調(diào)】和【預(yù)訓(xùn)練】?jī)蓚€(gè)階段產(chǎn)生巨大的影響,其影響已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了模型本身。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

這三種變化組合起來(lái),對(duì)于設(shè)計(jì)的沖擊是巨大的。這意味著以下幾點(diǎn)的巨大變化:

  • A. 設(shè)計(jì)需要的門(mén)檻大幅下降了,因?yàn)榇竽P偷木薮笸ㄓ眯?,子任?wù)定義這個(gè)環(huán)節(jié),在大部分的AI應(yīng)用場(chǎng)景中都不需要了,設(shè)計(jì)者只需要定義最終任務(wù),而最終任務(wù)即使對(duì)于入門(mén)者理解它也是很容易的。當(dāng)然如果你是大模型的設(shè)計(jì)者本身,而不是行業(yè)應(yīng)用,這件事可能依舊是需要的。
  • B. 設(shè)計(jì)再也不需要考慮效果可達(dá)性問(wèn)題,因?yàn)閷?duì)于大模型來(lái)說(shuō),可以抱有一個(gè)美好的預(yù)期,在達(dá)到某一個(gè)體量(參量+數(shù)據(jù))之后,新定義的任務(wù)效果就可以涌現(xiàn)出來(lái),大幅提升到可用水準(zhǔn),(當(dāng)然這件事是否在任何任務(wù)上都可以成立,還是需要技術(shù)的驗(yàn)證)
  • C. 大模型本身甚至讓目標(biāo)和路徑邏輯拆解變得及其簡(jiǎn)單了,很多復(fù)雜的拆解設(shè)計(jì)工作也都可以簡(jiǎn)化到端到端的方案實(shí)現(xiàn)。這不僅意味著需要拆解和定義的任務(wù)數(shù)量的減少,甚至大多數(shù)時(shí)候的任務(wù)都可以簡(jiǎn)化成一個(gè)最終任務(wù),而調(diào)整它的方法就是調(diào)整和定義它的訓(xùn)練集。
  • D. 數(shù)據(jù)的重要性變得無(wú)比高,什么樣的訓(xùn)練數(shù)據(jù)才是我們需要的數(shù)據(jù),因?yàn)樗嘘P(guān)于需求場(chǎng)景分析,各種維度需要達(dá)成的目標(biāo)期待,全部都靠一份數(shù)據(jù)集實(shí)現(xiàn),如何定義這份數(shù)據(jù)集應(yīng)該長(zhǎng)成什么樣子,就顯得十分的重要。如前文所述,這份數(shù)據(jù)集不能以數(shù)量來(lái)取代質(zhì)量,因?yàn)檫^(guò)大的精調(diào)數(shù)據(jù)集會(huì)讓大模型原本的一些能力消失,會(huì)話本身都會(huì)成為問(wèn)題,這顯然得不償失。
  • E. 從什么地方拿到高質(zhì)量的數(shù)據(jù),如何清洗數(shù)據(jù),如何構(gòu)造一條持續(xù)的數(shù)據(jù)收集通道。這些在原本AI框架中相對(duì)不重要的事情,如今變得極其的重要。相應(yīng)的,這方面的數(shù)據(jù)供應(yīng)行業(yè)也會(huì)早就巨大的機(jī)會(huì),誰(shuí)能以更低廉成本提供高質(zhì)量數(shù)據(jù),誰(shuí)能把線下各種非結(jié)構(gòu)化的數(shù)據(jù)抽象到線上數(shù)據(jù)集中,這些數(shù)據(jù)市場(chǎng)的機(jī)會(huì)會(huì)變得無(wú)比大。

舉個(gè)例子,上文我提到了參考關(guān)于小米的情感會(huì)話的一些實(shí)現(xiàn)方案,如果這件事放在大模型來(lái)實(shí)現(xiàn),其設(shè)計(jì)就可以簡(jiǎn)單的多,只需要定義“精調(diào)數(shù)據(jù)集+prompt”長(zhǎng)成什么樣子,就可以激發(fā)模型這塊的能力。

但是實(shí)際上對(duì)于設(shè)計(jì)者來(lái)說(shuō)思考工作量可能變化不大,因?yàn)橹豢恳环菥{(diào)數(shù)據(jù)集就決定最終效果,更加考驗(yàn)設(shè)計(jì)者對(duì)于【會(huì)話情感】這件事思考是否透徹,這些思考會(huì)反映在數(shù)據(jù)集范式的定義上,一旦數(shù)據(jù)集定義的不好,最終也就無(wú)法實(shí)現(xiàn)出好的效果。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

如果我們實(shí)際把兩種設(shè)計(jì)流拉出來(lái),比較一下兩種設(shè)計(jì)流的門(mén)檻,可以發(fā)現(xiàn):

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

A. 過(guò)去的專(zhuān)業(yè)設(shè)計(jì)流:從【需求分析階段】到【開(kāi)發(fā)實(shí)現(xiàn)】,還有一個(gè)專(zhuān)業(yè)的【系統(tǒng)設(shè)計(jì)】階段,這個(gè)階段需要大量的專(zhuān)業(yè)知識(shí)和閱讀量,這就讓設(shè)計(jì)本身變得門(mén)檻極高。

藍(lán)色部分需要對(duì)于技術(shù)的研讀和經(jīng)驗(yàn)才能進(jìn)行。當(dāng)然說(shuō)實(shí)話,過(guò)去見(jiàn)過(guò)的AI設(shè)計(jì)按照這個(gè)流程能完成設(shè)計(jì)的很少,很多設(shè)計(jì)的工作被忽略了??梢钥闯鲞^(guò)去的設(shè)計(jì)流程里面對(duì)于需求的分析把握以及對(duì)于技術(shù)的了解度都占了比較大的比重。

過(guò)去的方式有一項(xiàng)的工作就是任務(wù)分解,在各種邊界條件限制下無(wú)耐不斷進(jìn)行任務(wù)和子任務(wù)的分解和重新定義,而就像前面所說(shuō)的,每一次分解都代表了更多誤差的引入,和對(duì)設(shè)計(jì)者更高門(mén)檻的要求。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

B. 大模型的端到端設(shè)計(jì)流:從【需求分析階段】到【開(kāi)發(fā)實(shí)現(xiàn)】也可以直接的解決了,因?yàn)闆](méi)有必要在拆分復(fù)雜的子任務(wù),甚至對(duì)于【需求分析】本身,要求的邏輯能力也變?nèi)趿耍嗟氖且竽7履繕?biāo)場(chǎng)景的范式被定義出來(lái)。

對(duì)于大模型設(shè)計(jì)來(lái)說(shuō),大概可以認(rèn)為只要對(duì)于場(chǎng)景和問(wèn)題的分析做的足夠好,問(wèn)題的拆解可能可以直接作為系統(tǒng)的任務(wù)定義,問(wèn)題解決的邏輯路徑可能可以直接作為任務(wù)系統(tǒng)的任務(wù)流程。而唯一有可能需要的只是需要大概了解下有哪些經(jīng)典設(shè)計(jì)模式。

這個(gè)工作流其實(shí)已經(jīng)相當(dāng)接近普通To C或者To B產(chǎn)品的設(shè)計(jì)流了,在這種設(shè)計(jì)模式下,任務(wù)基本是可以端到端的直接解決,無(wú)需進(jìn)行分解,或者說(shuō)分解和定義的工作實(shí)際是在定義訓(xùn)練數(shù)據(jù),而不是定義系統(tǒng)組成。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

設(shè)計(jì)門(mén)檻的變化,最有可能的結(jié)果就是,人人都是AI設(shè)計(jì)者的時(shí)代可能要到了。

但是其實(shí)要我說(shuō)的話,雖然門(mén)檻變低了,但是這件事的分析難度可能沒(méi)有太多變化,在過(guò)去實(shí)踐中我們發(fā)現(xiàn)在定義數(shù)據(jù)集的時(shí)候,能否注意到目標(biāo)場(chǎng)景的大量隱前提,例如會(huì)話中的主客體關(guān)系和主導(dǎo)角色,這些都構(gòu)成了影響prompt和訓(xùn)練效果的關(guān)鍵。只會(huì)粗淺的收集數(shù)據(jù)和范式模仿,可能永遠(yuǎn)也達(dá)不到目標(biāo)效果,至少在我們的大模型實(shí)踐中是這樣的。

② 大模型時(shí)代設(shè)計(jì)者角色:大模型設(shè)計(jì)者&行業(yè)應(yīng)用設(shè)計(jì)者

大模型極大的降低了設(shè)計(jì)門(mén)檻,讓很多不具備專(zhuān)業(yè)知識(shí)的普通人可以加入AI設(shè)計(jì)行列。同時(shí)因?yàn)榇竽P偷耐ㄓ眯?低成本微調(diào)的特性,導(dǎo)致大部分的應(yīng)用場(chǎng)景都可以基于大模型的微調(diào)開(kāi)展,無(wú)需再像之前一樣逐個(gè)場(chǎng)景定制AI,因此設(shè)計(jì)門(mén)檻也出現(xiàn)了分化:

A. 基礎(chǔ)大模型的設(shè)計(jì)者:這類(lèi)設(shè)計(jì)者更加需要關(guān)心一些世界抽象問(wèn)題,基于不同的抽象維度的深度理解去設(shè)計(jì)基礎(chǔ)的大模型。同時(shí)這類(lèi)工作依舊需要一定的算法理解,但是理解深度要求就淺的多了,因?yàn)閷?shí)際操作定義可能是最終任務(wù),而不是子任務(wù),這讓理解成本降低了很多。

B. 行業(yè)應(yīng)用的設(shè)計(jì)者:這類(lèi)設(shè)計(jì)者則更加關(guān)心具體應(yīng)用場(chǎng)景的問(wèn)題,對(duì)于應(yīng)用場(chǎng)景的理解力,應(yīng)用場(chǎng)景的會(huì)話范式和成立前提,決定了該如何定義應(yīng)用場(chǎng)景的精調(diào)數(shù)據(jù)集,這項(xiàng)工作雖然門(mén)檻基本沒(méi)有了,但是因?yàn)閹缀踔挥袛?shù)據(jù)一個(gè)影響因素了,數(shù)據(jù)集定義質(zhì)量就是關(guān)鍵,而數(shù)據(jù)集定義取決于對(duì)于場(chǎng)景的理解深刻度有多少。

a. 大模型方案的設(shè)計(jì)

就像上面提到的,大模型讓一些中間狀態(tài)的子任務(wù),詞性、句法、依存、指代消解、語(yǔ)義角色標(biāo)注等等都不再具有研究意義,甚至NER、Embedding這類(lèi)在大部分通用場(chǎng)景下也不需要單獨(dú)再做為一個(gè)獨(dú)立子任務(wù)進(jìn)行方案和研究設(shè)計(jì)。但是目前其實(shí)針對(duì)大模型的效果測(cè)試集中,其實(shí)依舊可以看見(jiàn)這些子任務(wù)的身影。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

BIG BENCH測(cè)試集中的傳統(tǒng)NLP任務(wù)(https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/keywords_to_tasks.md)

研究可以更多的關(guān)注于最終任務(wù),諸如完形填空、機(jī)器翻譯、摘要總結(jié)、情感分類(lèi)等等。這種最終任務(wù)的理解成本就變低了很多,比如即使沒(méi)有閱讀過(guò)NLP領(lǐng)域的研究,也大概都可以通過(guò)簡(jiǎn)短的介紹大概知道上面哪些最終任務(wù)是什么意思,以及大概的應(yīng)用場(chǎng)景是什么。

中間任務(wù)的消失,和任務(wù)解決越來(lái)越端到端化的趨勢(shì),讓大模型設(shè)計(jì)者更加需要具有對(duì)于一些技術(shù)外的抽象現(xiàn)實(shí)任務(wù)本質(zhì)的深刻理解。例如對(duì)于Chatgpt的場(chǎng)景來(lái)說(shuō),對(duì)于【什么是會(huì)話】【什么是寫(xiě)作】的理解,就是對(duì)于這種任務(wù)場(chǎng)景的洞察力的體現(xiàn)。

作為設(shè)計(jì)者來(lái)說(shuō),算法知識(shí)需要了解的更少了,怎么能夠從對(duì)于世界的理解中抽象出一些基本任務(wù),并且對(duì)這些人類(lèi)社會(huì)的現(xiàn)象本質(zhì)具備深刻洞察和理解,成為設(shè)計(jì)者的關(guān)鍵素質(zhì)。而這些端到端的設(shè)計(jì)最開(kāi)始的應(yīng)用,就是取代了算法人員自己,因?yàn)榭雌饋?lái)需要具備算法素養(yǎng)的場(chǎng)景越來(lái)越少了,算法確實(shí)是自己革掉了自己的命。

對(duì)于目前的人機(jī)交互形式來(lái)看,我覺(jué)得可以抽象成“寫(xiě)作”和“會(huì)話”兩種本質(zhì)任務(wù),關(guān)于總結(jié)、范式轉(zhuǎn)換類(lèi)的工作可以理解成是一種寫(xiě)作,關(guān)于知識(shí)、交互、情感類(lèi)的工作可以理解成是一種會(huì)話。

在22年的虛擬人交互實(shí)踐過(guò)程中,我注意到一些跨學(xué)科的應(yīng)用,對(duì)于研究這類(lèi)抽象事物的本質(zhì)尤其重要。例如【小說(shuō)寫(xiě)作】【動(dòng)畫(huà)設(shè)計(jì)】這兩個(gè)行業(yè)的知識(shí)對(duì)于“會(huì)話”和“人機(jī)交互”產(chǎn)生了很大的幫助,《生命的幻想》《經(jīng)典人物原型45種》《情節(jié)與人物》等等其他領(lǐng)域書(shū)籍,以及《艾迪芬奇的記憶》這款游戲,這些從其他領(lǐng)域借鑒的方法論和設(shè)計(jì)指南起到了很大的幫助。同時(shí)對(duì)于一些腦科學(xué)、生物學(xué)等跨學(xué)科知識(shí),也都成為了重要的設(shè)計(jì)基礎(chǔ),原本打算整理下時(shí)間經(jīng)驗(yàn),但是文章寫(xiě)寫(xiě)停停,終于還是沒(méi)寫(xiě)完。

今年大模型導(dǎo)致AI同行交流都越來(lái)越變的閉塞,而大模型的想象空間又讓我明顯感覺(jué)到和行內(nèi)人士,及各行人士交流的重要性,因此打算開(kāi)始有計(jì)劃做一些分享和交流,下期打算就拿出虛擬人這塊的事情和大家談?wù)勱P(guān)于“會(huì)話”和“寫(xiě)作”兩個(gè)話題的理解,這篇就不做詳細(xì)闡述。

b. 行業(yè)AI應(yīng)用設(shè)計(jì)

大模型的微調(diào)技術(shù)證明,大模型可以以很少的訓(xùn)練數(shù)據(jù)量實(shí)現(xiàn)一種全新的目標(biāo)場(chǎng)景拓展應(yīng)用,或者針對(duì)性的提高模型某一方面的特性表現(xiàn),典型的例如:

  1. 模型特性:例如提高對(duì)話的自然度,提高會(huì)話的趣味性,或者形成一種全新的會(huì)話人設(shè)。
  2. 應(yīng)用場(chǎng)景:AI法律顧問(wèn),AI家庭教師,汽車(chē)管家,家庭管家等等。

這一點(diǎn)我覺(jué)得是AI最大的機(jī)會(huì),人人都可以在自己行業(yè)找到AI應(yīng)用場(chǎng)景,而這個(gè)應(yīng)用的設(shè)計(jì)門(mén)檻又被無(wú)限的下降,成本也被降低到了個(gè)人即可使用的程度,這一切都預(yù)示著大量的從未涉足過(guò)AI行業(yè)的設(shè)計(jì)者的出現(xiàn),以及大量具有創(chuàng)造性的新場(chǎng)景的涌現(xiàn),這是一個(gè)長(zhǎng)期機(jī)會(huì)窗口的開(kāi)始。

而我理解這并不代表大模型時(shí)代資深者就不再存在,機(jī)會(huì)可能在于可以提出比別人用更少的參數(shù)量,更少的數(shù)據(jù)量可以達(dá)到等價(jià)效果的方案。這可能是AI行業(yè)成熟期的開(kāi)始,更高的效率更高的利潤(rùn),成熟期市場(chǎng)的標(biāo)志會(huì)逐漸成為方案設(shè)計(jì)的核心。

商業(yè)世界里,能夠壓低生產(chǎn)成本本身就是公司一個(gè)過(guò)硬的核心能力,能以50%的成本實(shí)現(xiàn)其他公司100%的等同效果,這就意味著可以以0.7倍的成本價(jià),出讓20%-30%的利潤(rùn),逼迫能力不足的競(jìng)爭(zhēng)對(duì)手退出。我個(gè)人覺(jué)得對(duì)于行內(nèi)人來(lái)說(shuō),最怕的就是演變成幾年前CV算法四小龍同質(zhì)化競(jìng)爭(zhēng),一堆廠家建一個(gè)算法池,客戶(hù)豪氣的講“想用哪家的隨便用”這種格局。

③ 邁向搶奪定價(jià)權(quán)的時(shí)代

商業(yè)里有一句經(jīng)典的話,“沒(méi)有核心能力的企業(yè),消費(fèi)者會(huì)掌握定價(jià)權(quán)”。舉個(gè)不太恰當(dāng)?shù)睦?,這句話的典型行業(yè)可以看手機(jī)市場(chǎng)。雷軍自己都曾經(jīng)表達(dá)過(guò),小米手機(jī)賣(mài)多少錢(qián)取決于消費(fèi)者愿意出多少錢(qián),和手機(jī)制造成本是多少錢(qián)沒(méi)有關(guān)系。因此小米把尋找消費(fèi)者可接受的最合理價(jià)位作為售價(jià),然后通過(guò)規(guī)模效應(yīng)把成本壓到售價(jià)以下,這種變化也是行業(yè)從紅利走向成熟期的標(biāo)志。

對(duì)于AI行業(yè)來(lái)說(shuō),也是同樣,所有參與者都希望把自己高昂的技術(shù)成本轉(zhuǎn)換成公司的核心能力,也就是希望企業(yè)本身能夠掌握定價(jià)權(quán)。

而對(duì)于AI企業(yè)來(lái)說(shuō),資深設(shè)計(jì)者掌握的高效設(shè)計(jì)模式?jīng)Q定了企業(yè)可以以更低的成本實(shí)現(xiàn)更好的代差級(jí)效果。

當(dāng)然這里面還有誰(shuí)能掌握更加核心和不公開(kāi)的低噪音數(shù)據(jù)的問(wèn)題,但是這些都是企業(yè)為了掌握定價(jià)權(quán)的動(dòng)作。這里面對(duì)于掌握高效收集清洗數(shù)據(jù),高效設(shè)計(jì)模式的資深設(shè)計(jì)者來(lái)說(shuō),機(jī)會(huì)也是變得更多了,更多的初級(jí)人員的加入并不意味著資深者的出局。

從目前大模型之后行業(yè)趨勢(shì)來(lái)看,大家慢慢的都開(kāi)始做CloseAI了,從論文到使用的數(shù)據(jù)集,都不再像以前一樣完全開(kāi)源供大家使用,甚至于很多的大模型連一個(gè)playground都沒(méi)有。大模型對(duì)于數(shù)據(jù)質(zhì)量更加嚴(yán)重改的依賴(lài),導(dǎo)致大家會(huì)盡一切可能保護(hù)自己真正核心的數(shù)據(jù)資產(chǎn)。

④ 理解大模型的應(yīng)用與方向

A. 理解大模型應(yīng)用場(chǎng)景

目前最主要的大模型可以歸結(jié)為語(yǔ)言模型(應(yīng)用包括語(yǔ)音識(shí)別、多模態(tài)識(shí)別、蛋白質(zhì)序列預(yù)測(cè)、電路設(shè)計(jì)、代碼撰寫(xiě)、PPT生成等等)、擴(kuò)散模型(圖片生成、3D自動(dòng)建模等等)以及兩者的聯(lián)合使用(視頻生成)。

  1. 擴(kuò)散模型本質(zhì)我理解是一種消噪過(guò)程,我理解一些可以抽象成噪音消除預(yù)測(cè)的場(chǎng)景就可能是擴(kuò)散模型未來(lái)的場(chǎng)景,這些場(chǎng)景是獨(dú)立的,不要求上下文相關(guān)性的,簡(jiǎn)單說(shuō)就是內(nèi)部不要求邏輯合理這種要素存在,單純的復(fù)現(xiàn)輸入,因此像藝術(shù)類(lèi)的工作,諸如建模、畫(huà)圖等就可以用這個(gè)實(shí)現(xiàn)。但是藝術(shù)設(shè)計(jì)的前向工作,比如靈感產(chǎn)生、設(shè)計(jì)理念、前期設(shè)定等等前期工作,其實(shí)沒(méi)有辦法解決。
  2. 而語(yǔ)言模型側(cè)重于連續(xù)序列的預(yù)測(cè),側(cè)重上下文的關(guān)聯(lián)性,從人類(lèi)社會(huì)的視角來(lái)看,這個(gè)的應(yīng)用前景明顯更加廣闊,所以很多人談起大模型就談到Chatgpt,做個(gè)不恰當(dāng)?shù)谋扔?,這個(gè)相當(dāng)于在嘗試解決解決人類(lèi)大腦可以解決的問(wèn)題。為什么說(shuō)是不恰當(dāng)?shù)谋扔?,因?yàn)檎Z(yǔ)言模型本質(zhì)上來(lái)說(shuō),其實(shí)沒(méi)法辦法像大腦一樣推理思考,更多是在對(duì)輸入進(jìn)行歸納、總結(jié)和壓縮,使輸出看起來(lái)符合邏輯性。
  3. 其實(shí)綜合上面來(lái)看,很容易想到的就是擴(kuò)散模型看起來(lái)偏重輸出表現(xiàn)層的東西,語(yǔ)言模型看起來(lái)強(qiáng)在邏輯性,兩個(gè)組合不就可以輸出需要邏輯性表現(xiàn)的東西,用LLM理解語(yǔ)義和動(dòng)作序列,用擴(kuò)散模型生成每一幀的序列,例如視頻、3D動(dòng)作等等。這方面確實(shí)有研究,例如CogVideo、Imagen等等。
  4. 也有很多研究諸如斯坦福的《Diffusion-LM Improves Controllable Text Generation》或者關(guān)于應(yīng)用擴(kuò)散過(guò)程做Masked Language Model的研究,就是用擴(kuò)散過(guò)程做語(yǔ)言模型,因?yàn)檎Z(yǔ)言模型的Masked再預(yù)測(cè)的過(guò)程確實(shí)可以看作是一種消噪過(guò)程,甚至自監(jiān)督學(xué)習(xí)本身就可以理解成是對(duì)query的一種帶噪重構(gòu),所以最終兩者會(huì)不會(huì)殊途同歸這個(gè)還是留給專(zhuān)業(yè)算法去研究吧。

從替代人類(lèi)工作的視角來(lái)看,我的理解和吳軍老師對(duì)于大模型的解釋類(lèi)似,大模型尤其是熱炒的大型語(yǔ)言模型,并不會(huì)替代信息創(chuàng)造者的工作,更多是替代了不做信息創(chuàng)造僅僅做信息加工和傳遞的工作。以使用人使用交互工具需要的能力來(lái)看,可以從兩類(lèi)人來(lái)看待這件事,一類(lèi)是知識(shí)或者信息的生產(chǎn)者,一類(lèi)是知識(shí)或者信息的消費(fèi)者。

⑤ 對(duì)生產(chǎn)者來(lái)說(shuō),大模型是一種絕對(duì)的效率工具

我的理解是,對(duì)于世界運(yùn)行的本質(zhì)任務(wù)抽象度越高的大模型,未來(lái)的應(yīng)用前景也就愈加廣闊。例如語(yǔ)言模型之所以應(yīng)用場(chǎng)景比擴(kuò)散模型要廣闊得多,影響力也大得多,原因在于語(yǔ)言本身相比于圖像就是一種高度抽象的世界概括方式,因此語(yǔ)言模型也可以視作對(duì)于人類(lèi)社會(huì)中其中一個(gè)維度的高度抽象。”圖像、視頻、文本、音樂(lè)、生物結(jié)構(gòu)等等”一系列均有上下文序列強(qiáng)關(guān)聯(lián)的事務(wù),均可以被抽象地視為“語(yǔ)言”的一種范式。

未來(lái)是否會(huì)有一個(gè)終極抽象的大模型能夠真正實(shí)現(xiàn)“通用的多任務(wù)人工智能”這個(gè)我不知道,但是至少?gòu)母鱾€(gè)人類(lèi)社會(huì)的抽象維度一定都會(huì)誕生出大模型,如果不是單純的比拼垂類(lèi)任務(wù)精度,而是比拼通用性的覆蓋廣度,那么抽象度低的大模型一定會(huì)被抽象度更高的大模型替代掉。

實(shí)際上我覺(jué)得垂類(lèi)任務(wù)的精度問(wèn)題也可以通過(guò)擴(kuò)展模型和數(shù)據(jù)量,或者指望“能力涌現(xiàn)”解決這個(gè)問(wèn)題,比如擴(kuò)散模型我覺(jué)得其實(shí)有可能會(huì)被語(yǔ)言模型替代掉,因?yàn)檎Z(yǔ)言模型在設(shè)計(jì)這件事上甚至可以做的更好。

A. 擴(kuò)散模型之于創(chuàng)作

其實(shí)很好理解,相當(dāng)于把設(shè)計(jì)者從工具使用里解放出來(lái),充分發(fā)揮設(shè)計(jì)本身的能力和對(duì)成果的鑒賞修正力,典型設(shè)計(jì)的例子如《一拳超人》,ONE老師做構(gòu)思和設(shè)定,村田雄介做原畫(huà),這樣爆品漫畫(huà)就產(chǎn)生了??梢哉f(shuō)擴(kuò)散模型可以發(fā)揮ONE老師這類(lèi)信息生產(chǎn)者的創(chuàng)作潛力,而且效率相比于村田老師更高。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

設(shè)計(jì)這件事的工具,因?yàn)槿藱C(jī)交互工具自然度的進(jìn)化,使用門(mén)檻被降低了,從圖像擴(kuò)撒模型的演進(jìn)過(guò)程也可以看出這一點(diǎn),stable diffusion需要具備一定的代碼能力,而到了midjourney和dell-e,已經(jīng)可以通過(guò)可以專(zhuān)業(yè)人士的自然語(yǔ)言交互直接使用了。但是我覺(jué)得對(duì)于資深專(zhuān)業(yè)者來(lái)說(shuō),并不構(gòu)成問(wèn)題:

  1. 1業(yè)知識(shí)最根本的,我認(rèn)為是策劃能力,并不是產(chǎn)品策劃,技術(shù)架構(gòu)策劃,藝術(shù)設(shè)計(jì)策劃、科研的策劃都屬于這類(lèi)工作。這件事本質(zhì)上是需要利用及其有限的輸入信息,利用邏輯推演或者跨學(xué)科關(guān)聯(lián)知識(shí)創(chuàng)造更多的輸出信息量,而這件事本身是違反信息論原理的,因此大模型其實(shí)永遠(yuǎn)也無(wú)法實(shí)現(xiàn)這類(lèi)工作。
  2. 對(duì)于工具而言,使用成本的降低是必然的演進(jìn)趨勢(shì)。需要門(mén)檻的專(zhuān)業(yè)工具本身就會(huì)慢慢被無(wú)成本的工具替代。而這種替代正是可以把專(zhuān)業(yè)人士從繁重的工具使用中解放,釋放專(zhuān)業(yè)人士策劃創(chuàng)造信息能力。

擴(kuò)散模型可以說(shuō)在圖形、圖像、視頻、音樂(lè)這類(lèi)專(zhuān)業(yè)領(lǐng)域,都可以用于生成然后用其他模型指導(dǎo)連續(xù)性,也可以多種語(yǔ)言模型聯(lián)合使用,例如如下的輸出方式,Socratic Models 研究了多種這種大模型組合使用,或者外掛其他工具的場(chǎng)景和案例,這個(gè)其實(shí)很容易想到,就不贅述了,可以自己去看:

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Socratic Models: Composing Zero-ShotMultimodal Reasoning with Language

這個(gè)可以說(shuō)是目前最高效的工具了。雖然之前火爆的主要是圖像的擴(kuò)散模型,但是未來(lái)像各種模式的富媒體生成應(yīng)該都可以沿用擴(kuò)散模型的思路實(shí)現(xiàn)。但是我的直觀感覺(jué)是擴(kuò)散模型的抽象度其實(shí)并不夠高。

相比語(yǔ)言模型,擴(kuò)散模型更像是從信息的各種形式中歸納出來(lái)的一種范式。雖然自從電視出現(xiàn)后,圖像信息承載了人類(lèi)社會(huì)83%的信息量,聲音信息承載了11%的信息量,但是這種直接歸納得到的范式,我覺(jué)得抽象效率并不夠高,很有可能未來(lái)會(huì)被其他更加通用高效的工具所替代掉。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

B. 語(yǔ)言模型之于序列預(yù)測(cè)

目前國(guó)內(nèi)外看到的大模型的各種應(yīng)用,還屬于比較基本的能力復(fù)現(xiàn)使用,但是即使是這樣,大模型已經(jīng)在相當(dāng)大的范圍內(nèi)可以得到應(yīng)用。大模型的主要能力可以抽象到四個(gè)方面:

a. 范式轉(zhuǎn)換能力:相同類(lèi)型的信息從一種范式轉(zhuǎn)換為另一種范式,其信息量進(jìn)行了一定的壓縮,例如:

  • 給出一段詳細(xì)的文字描述,將其轉(zhuǎn)換為圖片或者視頻輸出;
  • 語(yǔ)音識(shí)別和語(yǔ)音合成,其實(shí)可以算作語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音的范式轉(zhuǎn)換;
  • 給出詳細(xì)的需求描述讓AI轉(zhuǎn)換成代碼;
  • 給予明確詳細(xì)的指令和情景分析,讓機(jī)器人執(zhí)行動(dòng)作;
  • 文字和圖像排版;
  • ……

b. 明確范式的內(nèi)容輸出:給出簡(jiǎn)短的信息,要求LLM填充更多的信息量輸出,因?yàn)樾畔⒘吭黾訉?shí)際上不符合信息論原理,所以這種輸出的信息本質(zhì)上來(lái)源于預(yù)訓(xùn)練的數(shù)據(jù)中,所以這種應(yīng)用會(huì)有兩個(gè)局限:

  1. 預(yù)訓(xùn)練沒(méi)有見(jiàn)過(guò)的數(shù)據(jù),LLM沒(méi)法給出很好的效果,甚至可能輸出都是“幻覺(jué)”,因?yàn)長(zhǎng)LM往往預(yù)訓(xùn)練數(shù)據(jù)很多,可以做這樣的實(shí)驗(yàn),如果你給LLM一些反人類(lèi)對(duì)話習(xí)慣的會(huì)話方式,比如每句話都要強(qiáng)調(diào)一下相同的內(nèi)容和前提,就會(huì)發(fā)現(xiàn)LLM在會(huì)話過(guò)程中越來(lái)越不像人的會(huì)話,甚至可能會(huì)話都不通順;
  2. 對(duì)于具有明確且固定的范式可以輸出的很好,例如工作周報(bào)、健身計(jì)劃、季度財(cái)報(bào)、非業(yè)務(wù)代碼、甚至學(xué)術(shù)論文等等,但是對(duì)于不固定的范式就很難可以輸出質(zhì)量很好,例如讓LLM模擬某個(gè)人的寫(xiě)作風(fēng)格很容易,但是讓LLM自己寫(xiě)出自己獨(dú)特的文采和風(fēng)格的文章,質(zhì)量就停留在中學(xué)生水準(zhǔn),差強(qiáng)人意。

綜合以上的應(yīng)用局限,可以比較好的應(yīng)用這種能力的場(chǎng)景也大概可以想得到了。例如如果讓LLM寫(xiě)一些能力代碼或者單元測(cè)試,LLM可以很好給出,但是如果讓LLM寫(xiě)業(yè)務(wù)代碼實(shí)際上沒(méi)法輸出,因?yàn)闃I(yè)務(wù)代碼里往往蘊(yùn)含了相當(dāng)多的研發(fā)自己對(duì)于需求的解讀和信息豐富。

c. 總結(jié)歸納的能力:從大量信息中,總結(jié)提煉出關(guān)鍵的信息,這個(gè)能力實(shí)際上可以解決信息過(guò)多的情況下,人工不足以進(jìn)行全部客觀的分析解讀的問(wèn)題。這一方面其實(shí)如果結(jié)合得當(dāng)?shù)闹R(shí)更新注入方案,行業(yè)應(yīng)用場(chǎng)景會(huì)相當(dāng)廣闊,當(dāng)然目前主流的知識(shí)注入方式還是外掛單獨(dú)的小模型或者檢索的方式給大模型注入知識(shí),然后要求大模型基于外掛的知識(shí)進(jìn)行輸出信息的改寫(xiě):

  • 收集大量信息總結(jié)提煉,但是不輸出新的信息的新聞稿撰寫(xiě);
  • 上市公司的財(cái)報(bào)客觀解讀,這些需要客觀性,規(guī)避偏見(jiàn)和虛假的東西LLM甚至比人做得好;
  • 某一市場(chǎng)狀況的總結(jié)分析和解讀;
  • 大規(guī)模的綜合數(shù)據(jù)分析和解讀;
  • 知識(shí)總結(jié)和摘要提煉,可以用于教育行業(yè);
  • ……

d. 連續(xù)序列推理預(yù)測(cè):對(duì)于可以抽象成具有連續(xù)規(guī)律序列的事物,都是利用LLM能力的最好的場(chǎng)景,這種能力其實(shí)最接近LLM能力生效的本質(zhì),其限制也很明顯,就是不具有規(guī)律性或者信息稀疏的事物上,這種能力并不生效,所以這種能力的本質(zhì)在于事物本身是否可以看做具有連續(xù)規(guī)律性。這種能力經(jīng)常被應(yīng)用于需要天文數(shù)字的計(jì)算量或者人工實(shí)驗(yàn)量才能解決或者得出結(jié)論的問(wèn)題。

  • 人類(lèi)語(yǔ)言、語(yǔ)音、歌曲、影視等具有連續(xù)規(guī)律的事物;
  • 蛋白質(zhì)設(shè)計(jì)、芯片電路設(shè)計(jì)、路線規(guī)劃等等具有連續(xù)規(guī)律性,或者可以看做具有規(guī)律性的事物;
  • 科研實(shí)驗(yàn)試錯(cuò)的最好助手,例如藥物分子設(shè)計(jì),大規(guī)模轉(zhuǎn)基因?qū)嶒?yàn)等等各種科研實(shí)驗(yàn)領(lǐng)域上;
  • Dota、麻將、紙牌等等策略取決于連續(xù)上個(gè)動(dòng)作和下個(gè)動(dòng)作的游戲AI;(OpenAI早期用強(qiáng)化學(xué)習(xí)做過(guò)一個(gè)Dota對(duì)戰(zhàn)機(jī)器人,我覺(jué)得現(xiàn)在其實(shí)可以考慮用LLM做一個(gè)更強(qiáng)的)
  • 植物生長(zhǎng)情況預(yù)測(cè),環(huán)境變化預(yù)測(cè)等等放大到大范圍上的預(yù)測(cè);
  • 當(dāng)然以上都是開(kāi)腦洞的應(yīng)用,模擬人類(lèi)說(shuō)話和寫(xiě)作本身其實(shí)就可以看做連續(xù)預(yù)測(cè);
  • …….

當(dāng)然即使是科研領(lǐng)域,也有大模型解決不了的領(lǐng)域,例如考古或者天文學(xué),都屬于可觀測(cè)數(shù)據(jù)極其有限的領(lǐng)域。例如天文學(xué)因?yàn)闆](méi)有足夠數(shù)量樣本驗(yàn)證定義是特例誤差,還是統(tǒng)計(jì)標(biāo)準(zhǔn),其實(shí)是依靠構(gòu)建出大量的定理,依靠關(guān)聯(lián)定理數(shù)量的多少來(lái)決定哪些定理是科學(xué)的,從而在極少的幾個(gè)觀測(cè)實(shí)體上驗(yàn)證假設(shè)。

對(duì)于參與以統(tǒng)計(jì)學(xué)為科學(xué)基地的AI行業(yè)的我個(gè)人來(lái)說(shuō),這種少樣本的科學(xué)方法論,拓寬了個(gè)人看待世界的方式的另一種維度。

這四個(gè)方面的能力并不是只能單獨(dú)使用,可以同時(shí)應(yīng)用產(chǎn)生在一種應(yīng)用中,例如指定“給我蛋糕食譜并且配上每個(gè)環(huán)節(jié)的操作示意圖”這種需求就會(huì)應(yīng)用到多種能力。

其實(shí)理解了上面的大模型的能力,對(duì)于大模型能做什么不能做什么就有一些邊界預(yù)期,目前的LLM遠(yuǎn)不是通用人工智能,甚至不是真正的多任務(wù)人工智能,但是其應(yīng)用場(chǎng)景也絕對(duì)不止目前大家簡(jiǎn)單應(yīng)用的一點(diǎn)能力復(fù)用,所有符合上述抽象邏輯的問(wèn)題和問(wèn)題組合,理論上都可以通過(guò)LLM來(lái)解決。

相比于擴(kuò)散模型,語(yǔ)言模型更貼近人類(lèi)社會(huì)一種連續(xù)性維度的抽象理解,因此其掀起的熱炒也遠(yuǎn)比擴(kuò)散模型高得多。目前的語(yǔ)言模型我認(rèn)為主要抽象了兩種本質(zhì)范式,已替代了過(guò)去零零碎碎的各種場(chǎng)景定制范式:

1. “會(huì)話”:類(lèi)比人類(lèi)社會(huì)中的各種交流形式,不論是一對(duì)多的大眾傳媒,還是一對(duì)一的社交活動(dòng)都在會(huì)話的場(chǎng)景可以得到體現(xiàn),而會(huì)話的核心場(chǎng)景就是信息量不產(chǎn)生在一方,總有一個(gè)相互的信息交互過(guò)程,這代表了有很多隱含的社會(huì)約定俗成的規(guī)則在“會(huì)話”范式中。

我認(rèn)為可能“協(xié)作”更像是這種范式的終極形態(tài),交互雙方相互填補(bǔ)信息空缺,綜合輸出一份共創(chuàng)結(jié)果。模型規(guī)模的擴(kuò)大,對(duì)于語(yǔ)言深層的理解逐步在強(qiáng)化,但是至少?gòu)哪壳皩?duì)于GPT4的使用過(guò)程可以發(fā)現(xiàn),其實(shí)目前的GPT4還沒(méi)有辦法完全自主的理解這種范式。

什么是語(yǔ)言中更高更深層的東西,對(duì)于會(huì)話來(lái)說(shuō),就目前的一些實(shí)踐經(jīng)驗(yàn)來(lái)看,我覺(jué)得其實(shí)這個(gè)問(wèn)題可以分為兩部分:

1.會(huì)話成立的前提:這一點(diǎn)很容易被忽視,我發(fā)現(xiàn)對(duì)于GPT來(lái)說(shuō)如果不給它指明,GPT本身也不會(huì)關(guān)注這個(gè)問(wèn)題。例如【會(huì)話的主客體關(guān)系】【會(huì)話主導(dǎo)角色】【誰(shuí)在填充信息量】【做出評(píng)價(jià)與總結(jié)】等等。這一部分的信息必須在few shot或者后續(xù)糾錯(cuò)中補(bǔ)充給gpt,gpt才能理解,或者以精調(diào)的方式激發(fā)這方面的能力表現(xiàn)。從這個(gè)意義上來(lái)說(shuō),可以再次證明大模型對(duì)于設(shè)計(jì)者意志的依賴(lài)。

2.語(yǔ)言文本中蘊(yùn)含的深層信息,大概語(yǔ)言模型的發(fā)展也是按照這種方式,從最開(kāi)始的形式(詞性、句法、成分)走向含義(語(yǔ)義),到現(xiàn)在的會(huì)話情感,對(duì)于會(huì)話中的顯性情感GPT已經(jīng)可以完全理解,但是對(duì)于一些隱性情感及回應(yīng)的情感態(tài)度選擇,這塊語(yǔ)言模型的潛力還有待被進(jìn)一步挖掘。

關(guān)于“對(duì)話”和“寫(xiě)作”本質(zhì)我的理解打算在下一篇關(guān)于虛擬人的大模型實(shí)踐里詳細(xì)分享一下,這里就不細(xì)談了。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

或者我讓大模型理解一下更抽象的內(nèi)容,比如什么叫做“協(xié)作”。也可以發(fā)現(xiàn)大模型其實(shí)完全不理解這件事,只是在語(yǔ)言層面模仿的比較順暢,關(guān)于協(xié)作的本質(zhì)大模型完全不理解,給出的只是浮于表面的人類(lèi)行為模仿,以及語(yǔ)言順暢度的潤(rùn)色。其實(shí)這個(gè)也可以看出設(shè)計(jì)者并沒(méi)有為大模型定義這種任務(wù)和能力,有可能會(huì)是未來(lái)大模型下一代大迭代的方向。

下面是我讓GPT4模擬一下協(xié)作流程,GPT4給出的,可以看出各參與成員之間其實(shí)完全沒(méi)有發(fā)生信息量的交互行為以及共創(chuàng)產(chǎn)生新信息量的行為,有的只是一種已有信息的不斷傳遞、總結(jié)和形式轉(zhuǎn)化(這個(gè)過(guò)程我覺(jué)得其實(shí)也可以說(shuō)是是語(yǔ)言模型的本質(zhì))。后面我又嘗試讓GPT4做了各種方向的調(diào)整和prompt,但是目前的GPT4始終無(wú)法理解什么是協(xié)作。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

2. “寫(xiě)作”:或者說(shuō)“類(lèi)寫(xiě)作”的創(chuàng)作工作范式,我覺(jué)得用與發(fā)散思維對(duì)立的演繹思維來(lái)歸納這種范式并不是很全面。因?yàn)橹灰巧弦粋€(gè)元素和下一個(gè)元素之間存在某種關(guān)聯(lián)性,基于此將輸入的大量信息作總結(jié),或者在某些少量信息提示下,進(jìn)行大段信息的輸出,都可以歸入這種范式。我覺(jué)得這種范式大致歸納為:

  • 預(yù)輸入信息:AAAABBCCCDDEEFFFFFGGGGG…..
  • 信息總結(jié):ABCDEFG..
  • 提問(wèn):給一個(gè)符合某種邊界條件的序列組合
  • 輸出:AYHCNHNFKEHZCDSE…

關(guān)于這種范式最近看到一篇闡述如何強(qiáng)化LLM的推理和決策能力的論文覺(jué)得思路和我很像,都是理解人類(lèi)處理這類(lèi)范式事情的本質(zhì)會(huì)有哪些前提和邏輯過(guò)程,然后把它應(yīng)用到LLM中。

作者提出了一個(gè)REACT方法,發(fā)現(xiàn)人在執(zhí)行任務(wù)過(guò)程中,每?jī)蓚€(gè)子動(dòng)作之間其實(shí)會(huì)穿插一段推理和思考,重新掌握下目前的情況,如下圖右邊部分就是這種思路的應(yīng)用,相比于左邊的COT方法的幻覺(jué),REACT方法可以正確得出結(jié)論。雖然右側(cè)的執(zhí)行動(dòng)作看起來(lái)像是一個(gè)全部用窮舉法解決問(wèn)題的小孩子,但是我覺(jué)得這個(gè)思考方向是正確的。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

REAC T: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS(https://arxiv.org/pdf/2210.03629.pdf)

所以我覺(jué)得類(lèi)比人類(lèi)社會(huì),對(duì)創(chuàng)造類(lèi)工作流程的模仿更適合這種范式。但是只是模仿不創(chuàng)造新信息的價(jià)值是什么呢?我認(rèn)為是可以讓機(jī)器無(wú)限次的不斷模擬試錯(cuò)過(guò)程,把人類(lèi)創(chuàng)作的試錯(cuò)成本降到最低。這個(gè)其實(shí)就已經(jīng)在很多領(lǐng)域可以極大的降低人力投入,把以前因?yàn)槿肆ν度脒^(guò)多導(dǎo)致不可能的工作開(kāi)展下去,例如復(fù)雜蛋白質(zhì)的設(shè)計(jì)就屬于這類(lèi)工作范疇。

  • “科研試錯(cuò)工作(實(shí)驗(yàn)試錯(cuò)、結(jié)構(gòu)設(shè)計(jì)、甚至公式推導(dǎo))”
  • “設(shè)計(jì)試錯(cuò)工具(工程結(jié)構(gòu)、電子電路)”
  • “日常模板化工作的模仿(郵件、財(cái)報(bào)、新聞、論文等等)”

這里模擬試錯(cuò)的效率就是算法模型設(shè)計(jì)的效率。但是始終AI還是模仿流程,沒(méi)法真正的做創(chuàng)作,因?yàn)榫科涓?,語(yǔ)言模型還是在做復(fù)述而不是創(chuàng)作。如果我們可以把全世界做信息創(chuàng)造者創(chuàng)造信息的輸入給到模型,可以實(shí)現(xiàn)創(chuàng)作嗎,我覺(jué)得這個(gè)可以替代掉重復(fù)性信息創(chuàng)造的工作,讓創(chuàng)造者更加關(guān)注于創(chuàng)造新的信息。

那么對(duì)LLM來(lái)說(shuō),有哪些是能力邊界之外的呢?

1. 非連續(xù)性場(chǎng)景:對(duì)于人類(lèi)社會(huì)來(lái)說(shuō),有相當(dāng)大量的場(chǎng)景實(shí)際上是非連續(xù)的,這也是為什么說(shuō)LLM無(wú)法解決創(chuàng)作性問(wèn)題的一個(gè)原因,例如我們可以發(fā)現(xiàn)LLM可以寫(xiě)論文,但是創(chuàng)作一個(gè)笑話卻很困難,因?yàn)樾υ捦欠沁B續(xù)性的,雖然笑話也具有一定的固定范式,但是LLM往往只能模仿這些范式:

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

2. 需要全局視角或者審視全局上下文情況的場(chǎng)景:因?yàn)镚PT是單向語(yǔ)言模型,這意味著當(dāng)GPT輸出內(nèi)容的時(shí)候,實(shí)際上無(wú)法像人一樣,對(duì)已經(jīng)輸出的內(nèi)容進(jìn)行修正。

例如人可以在推理過(guò)程中,發(fā)現(xiàn)上文矛盾的地方,涂改修正推理路徑,但是對(duì)于GPT來(lái)說(shuō)只能硬著頭皮繼續(xù)解釋錯(cuò)誤,【幻覺(jué)】的出現(xiàn)我覺(jué)得和這個(gè)有脫不開(kāi)的關(guān)系,有可能對(duì)于需要全局視野的事實(shí),大家最后依舊會(huì)用到雙向語(yǔ)言模型的技術(shù),因?yàn)殡p向意味著可以檢查和修正上下文,只是可能不是Bert那種判別式模型的形式,可能是類(lèi)似過(guò)往的XLNET的雙向自回歸的思路開(kāi)展,例如T5就是一種雙向的語(yǔ)言模型,當(dāng)然這個(gè)問(wèn)題還是期待算法大佬的實(shí)踐與思考分享。

3. 引用微軟GPT4的報(bào)告內(nèi)容做個(gè)結(jié)語(yǔ):適用于LLM的例子包括寫(xiě)摘要、回答事實(shí)性問(wèn)題、根據(jù)給定的韻律方案創(chuàng)作詩(shī)歌或解決遵循標(biāo)準(zhǔn)過(guò)程的數(shù)學(xué)問(wèn)題。而對(duì)于不連續(xù)任務(wù)的例子包括解決需要公式的新穎或創(chuàng)造性應(yīng)用的數(shù)學(xué)問(wèn)題,編寫(xiě)笑話或謎語(yǔ),提出科學(xué)假設(shè)或哲學(xué)論點(diǎn),或創(chuàng)建新的寫(xiě)作流派或風(fēng)格。(Sparks of Artifificial General Intelligence: Early experiments with GPT-4)

AI行業(yè)和一般的行業(yè)有一個(gè)巨大差異,在于真正理解AI和應(yīng)用范圍的人很少,客戶(hù)一般情況下更是只了解一些具體應(yīng)用的案例,這就導(dǎo)致AI行業(yè)找應(yīng)用場(chǎng)景一直處于拿著錘子找釘子的狀態(tài)。

一般AI行業(yè)的設(shè)計(jì)者都是先設(shè)想會(huì)有很多人在某某方向有很多應(yīng)用場(chǎng)景,或者自己找一些側(cè)面佐證數(shù)據(jù),或者找?guī)讉€(gè)關(guān)系好的客戶(hù)聊一下意向,本質(zhì)上其實(shí)是設(shè)計(jì)者先按自己的想法設(shè)計(jì),然后再給市場(chǎng)推廣告訴市場(chǎng)有什么什么用,期望市場(chǎng)接受。而一般其他行業(yè)客戶(hù)對(duì)于自己的需求本身有比較明確的分析和預(yù)期,可以有相對(duì)明確的訴求,這一點(diǎn)和AI行業(yè)很不一樣,AI行業(yè)客戶(hù)往往等著設(shè)計(jì)者去介紹有什么樣的特性,然后判斷下自己是否可以用得上。

在大模型時(shí)代,這個(gè)問(wèn)題得到緩解了嗎?我覺(jué)得其實(shí)并沒(méi)有,雖然大模型的火爆讓很多人知道了如何簡(jiǎn)單的應(yīng)用AI,但是如果要能夠自主分析需求,依舊需要研讀較多的基本資料,這一點(diǎn)可以說(shuō)是AI的需求分析門(mén)檻了,即使在大模型時(shí)代,如果知識(shí)照貓畫(huà)虎的看看新聞報(bào)道,依舊只能停留在簡(jiǎn)單的基本能力應(yīng)用模仿上。

⑥ 大模型會(huì)有哪些方向

關(guān)于大模型的演進(jìn),經(jīng)常提的是在五感信息方面擴(kuò)展,比如在語(yǔ)言基礎(chǔ)上疊加視覺(jué)多模態(tài),或者疊加觸覺(jué)類(lèi)的動(dòng)作能力。

我覺(jué)得這件事可以從世界信息的維度來(lái)看,雖然大模型都是在壓縮世界知識(shí),但是世界知識(shí)收集的維度有很多來(lái)源,比如互聯(lián)網(wǎng)上的信息(統(tǒng)一歸結(jié)為線上社交互動(dòng))、線下人與物之間的交互、線下的社交活動(dòng)行為、人與商業(yè)服務(wù)實(shí)體的互動(dòng)、商業(yè)關(guān)聯(lián)實(shí)體間的互動(dòng)等等。不同維度的信息需要搭建不同的數(shù)據(jù)收集通道,以及不同的數(shù)字化的方式,而大模型可以壓縮的各個(gè)維度的世界知識(shí)越多,大模型可以輸出的能力也就越豐富。在不考慮信息收集成本的前提下,大模型無(wú)限收集和壓縮世界知識(shí)確實(shí)可以實(shí)現(xiàn)全知全能的信息復(fù)現(xiàn)能力。

對(duì)于國(guó)內(nèi)來(lái)說(shuō),有另一層的問(wèn)題,就是很多線下信息的線上化程度不足,比如國(guó)內(nèi)的圖書(shū)館信息因?yàn)榫€上化的程度小,就沒(méi)法像沒(méi)過(guò)一樣把這些信息全部輸入大模型充分利用。這個(gè)有可能也會(huì)是一種機(jī)會(huì),就像美國(guó)當(dāng)年的加利福尼亞淘金熱,淘金的人賺錢(qián)的沒(méi)有多少,而送水、住宿、賣(mài)稿子的都賺的盆滿(mǎn)缽滿(mǎn)。另一方面,這種淘金熱也直接讓美國(guó)西部出現(xiàn)了新興的城市圈,對(duì)現(xiàn)在的美國(guó)長(zhǎng)期產(chǎn)生深遠(yuǎn)影響。我覺(jué)得可以預(yù)期就算大模型從業(yè)人員確實(shí)不會(huì)有很多人賺到錢(qián),但是對(duì)于整個(gè)社會(huì)來(lái)說(shuō)一定會(huì)產(chǎn)生長(zhǎng)遠(yuǎn)的正向收益。

數(shù)據(jù)的重要性這件事,從最近OpenAI發(fā)布的“過(guò)程監(jiān)督(PRM)”的訓(xùn)練方法也可以側(cè)面看出數(shù)據(jù)的重要性。對(duì)于數(shù)據(jù)質(zhì)量的要求越來(lái)越高,不止于最終結(jié)果,已經(jīng)拓展到推理過(guò)程中。不過(guò)這也變現(xiàn)的導(dǎo)致數(shù)據(jù)的標(biāo)注成本越來(lái)越高,大模型對(duì)于高質(zhì)量數(shù)據(jù)的需求,隨著大模型國(guó)產(chǎn)化的進(jìn)程,市場(chǎng)空間一定會(huì)越來(lái)越大。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

Let’s Verify Step by Step(https://arxiv.org/pdf/2305.20050.pdf)

第三個(gè)問(wèn)題就是,國(guó)內(nèi)的AI競(jìng)爭(zhēng)格局來(lái)說(shuō),跟風(fēng)扎堆現(xiàn)象很重。像CV四小龍當(dāng)年最后落得變成各個(gè)客戶(hù)算法池中的一員,這種競(jìng)爭(zhēng)格局肯定是不希望在大模型上看到的。

打造一個(gè)基本能用的通用大型語(yǔ)言模型,可能只是人力和成本問(wèn)題,在路線明朗的現(xiàn)在,難度上并不高,這也是給了行業(yè)扎堆的理由,用錢(qián)可以解決的問(wèn)題一般都不會(huì)成為問(wèn)題。

但是在國(guó)內(nèi)的算法廠商和應(yīng)用廠商之間,都會(huì)有一層中臺(tái)系統(tǒng),這個(gè)系統(tǒng)負(fù)責(zé)調(diào)度大模型的能力,以及進(jìn)行業(yè)務(wù)的分配。實(shí)際上,最后真正掌握了中臺(tái)系統(tǒng)建設(shè)和話語(yǔ)權(quán)的廠商,才是最后控制行業(yè)話語(yǔ)權(quán)的廠商,對(duì)大模型來(lái)說(shuō),往往沒(méi)有AI能力的廠商對(duì)于大模型理解不充分,具備大模型能力的廠商又看不太起這種純粹的力氣活,我覺(jué)得這里面可能就看誰(shuí)最先具備了“知識(shí)+投入決心”,誰(shuí)就有可能是這盤(pán)棋的最后贏家。

除了上面的幾個(gè)大問(wèn)題之外,關(guān)于大模型的能力演進(jìn)方向,我覺(jué)得微軟總結(jié)的算是比較全面的,現(xiàn)在的各大國(guó)內(nèi)公司在大模型內(nèi)不斷增加的功能和特性也都可以在里面看得到,加之我自己對(duì)于各個(gè)維度的一些理解,搬了過(guò)來(lái):

  • 置信度校準(zhǔn)(Confifidence calibration):通過(guò)引用外部工具(例如搜索引擎)或者其他方式緩解幻覺(jué)問(wèn)題,或者讓模型判斷什么時(shí)候?qū)敵鼋Y(jié)果有信心,RAG的檢索增強(qiáng)技術(shù)就是一種最常用的校準(zhǔn)方式。
  • 長(zhǎng)時(shí)記憶(Long-term memory): 賦予模型需要長(zhǎng)期記住的一些知識(shí)或者前提,例如解讀歷史的時(shí)候,需要對(duì)一些基本背景有一些了解,同時(shí)簡(jiǎn)化情景的一些假設(shè)往往才是討論的前提。
  • 持續(xù)學(xué)習(xí)(Continual learning): 這也是經(jīng)常被談及的通用人工智能準(zhǔn)則,可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。
  • 個(gè)性化(Personalization): 基于用戶(hù)畫(huà)像的個(gè)性化,這個(gè)概念對(duì)于國(guó)內(nèi)來(lái)說(shuō)可太熟了,放到交互上, 就是每個(gè)面向?qū)ο蠼换サ母鞣礁髅娑剂η髠€(gè)性化。
  • 計(jì)劃與概念發(fā)散(Planning and conceptual leaps): 這個(gè)其實(shí)說(shuō)的就是具備非連續(xù)性的能力,或者以人的思考方式來(lái)類(lèi)比,就是具備腦暴那種發(fā)散性思考能力。
  • 透明度、可解釋性與一致性(Transparency, interpretability and consistency): 目前的GPT可以認(rèn)為是事后解釋?zhuān)瑸樽约旱男袨檫M(jìn)行合理化,但是這種在行為學(xué)里明顯會(huì)有“過(guò)度合理化”的問(wèn)題,如何讓解釋性做在輸出之前,讓模型真正做到先解釋思考再輸出就是一個(gè)方向。COT可以認(rèn)為是一個(gè)很好的開(kāi)端,但是遠(yuǎn)遠(yuǎn)不夠。
  • 認(rèn)知偏見(jiàn)和非理性(Cognitive fallacies and irrationality): 因?yàn)閿?shù)據(jù)對(duì)大模型的巨大影響,人類(lèi)社會(huì)一般的偏見(jiàn),例如職業(yè)和性別的偏見(jiàn)就會(huì)影響大模型。
  • 對(duì)敏感輸入的挑戰(zhàn)(Challenges with sensitivity to inputs): 目前的大模型的設(shè)計(jì)方式導(dǎo)致prompt內(nèi)容十分敏感,但是如果我們?nèi)狈?zhuān)業(yè)的Few shot知識(shí)或者時(shí)間來(lái)去撰寫(xiě)它,是否也能讓大模型對(duì)于輸入很敏感。

另外,從目前對(duì)于大模型的個(gè)人分析,我覺(jué)得有幾個(gè)方向也值得大模型的研究者關(guān)注:

  1. 思考的連續(xù)性:如果仔細(xì)對(duì)比GPT4和Chatgpt,可以發(fā)現(xiàn)兩者最大的區(qū)別就在于GPT4的所有輸出都是經(jīng)過(guò)一系列連續(xù)步驟的思考的,而Chatgpt很多時(shí)候則是直接輸出結(jié)果,這種直接輸出的結(jié)果經(jīng)常都是錯(cuò)誤的。這就意味著思維鏈這種思考模式,以及這種連續(xù)性思考能力的不斷深入的推理能力,可能是大模型進(jìn)化需要具備的最重要的能力,我理解這也是為什么Openai做了過(guò)程監(jiān)督(PRM)進(jìn)一步強(qiáng)化這個(gè)過(guò)程。從表現(xiàn)來(lái)看,Chatgpt的輸出永遠(yuǎn)都是不連貫的,像是一個(gè)在給自己的結(jié)果找理由的小孩,而GPT4則一定程度上實(shí)現(xiàn)了一步一步的連續(xù)性推理。
  2. 訓(xùn)練數(shù)據(jù)的范式:Chatgpt傾向于直接輸出錯(cuò)誤的結(jié)果(尤其在數(shù)學(xué)計(jì)算中),可能與訓(xùn)練數(shù)據(jù)中基本都是傾向于要給出答案的范式有關(guān)。在我體驗(yàn)的cluade和GPT的差異中,我也可以明顯的感覺(jué)出來(lái)訓(xùn)練數(shù)據(jù)不同的范式傾向,傾向討論問(wèn)題還是傾向輸出結(jié)果,傾向于與人協(xié)作補(bǔ)充信息還是堅(jiān)持自己的看法不斷找理由,我覺(jué)得設(shè)計(jì)者對(duì)于這些數(shù)據(jù)的定義傾向就決定了大模型的傾向。其中一個(gè)最明顯的例子就是即使是GPT4強(qiáng)化了思考連續(xù)性,甚至給出了Few-shot,在很多數(shù)學(xué)計(jì)算中,還是會(huì)忽略計(jì)算過(guò)程直接給一個(gè)錯(cuò)誤的結(jié)果,而如果讓GPT把過(guò)程呈現(xiàn)出來(lái),GPT就會(huì)輸出正確結(jié)果。
  3. 動(dòng)態(tài)規(guī)劃能力:數(shù)學(xué)建模領(lǐng)域中,除了連續(xù)性的思考以及引用外部各領(lǐng)域物理學(xué)定律知識(shí)之外,還有一種重要的能力就是動(dòng)態(tài)規(guī)劃能力,可以實(shí)時(shí)的格局當(dāng)下的情景做出當(dāng)下的最優(yōu)決策,即使以大模型的計(jì)算能力來(lái)說(shuō),這種能力對(duì)于處理現(xiàn)實(shí)的復(fù)雜問(wèn)題也有明顯的優(yōu)勢(shì)和好處。
  4. 大模型、人和環(huán)境的交互:鑒于我一直是人機(jī)合作的忠實(shí)支持者,我始終認(rèn)為人機(jī)融合的交互方式,能夠相互補(bǔ)位,并且能夠與環(huán)境進(jìn)行互動(dòng)的理念才是發(fā)展的終極方向。

⑦ 建構(gòu)大模型的生態(tài)

對(duì)于大模型來(lái)說(shuō),依據(jù)大模型的數(shù)據(jù)和調(diào)整方式,可以分為三種“基礎(chǔ)大模型”、“微調(diào)行業(yè)大模型”、“大模型+Prompt插件”,分別對(duì)應(yīng)了大模型中的三種數(shù)據(jù)“預(yù)訓(xùn)練數(shù)據(jù)+SFT”、“微調(diào)數(shù)據(jù)集”和“實(shí)時(shí)交互的Prompt”。三種模式分別有對(duì)應(yīng)的應(yīng)用場(chǎng)景和所需的最低成本投入,所以其實(shí)一般看一家做大模型的公司投入情況,大概就可以猜出他們的實(shí)現(xiàn)方案是用的哪一種,以及大概效果會(huì)怎么樣。關(guān)于效果其實(shí)更多的是說(shuō)模型對(duì)于語(yǔ)言的深層理解如何,單純的模仿某種行業(yè)的場(chǎng)景進(jìn)行回答,這個(gè)其實(shí)在較數(shù)B量級(jí)就可以做到,然而這種模仿小模型實(shí)際上做一些推理或者解決行業(yè)深度問(wèn)題的時(shí)候就完全力不從心:

  • 基礎(chǔ)大模型:論證復(fù)現(xiàn)一個(gè)gpt需要多少錢(qián)的文章其實(shí)很多,大家可以自己去查,大致來(lái)說(shuō)不到數(shù)億的投入基本都說(shuō)明這個(gè)廠商并沒(méi)有在做自己的基礎(chǔ)大模型;
  • 行業(yè)應(yīng)用模型:這個(gè)其實(shí)成本空間上下限就很大,Lora這種微調(diào)可以在幾個(gè)小時(shí)幾百塊就微調(diào)出一個(gè)效果看起來(lái)很不錯(cuò)的行業(yè)應(yīng)用,并且Lora可以不將大模型私有化部署,因?yàn)楸举|(zhì)上只是一種外掛,并沒(méi)有動(dòng)到模型本身,和F-tune、P-tune很不同。但是如果采用Tuning的路線,往往從行業(yè)知識(shí)建立到定制優(yōu)化需要數(shù)十人的團(tuán)隊(duì)來(lái)做,但是這種優(yōu)化方式其實(shí)穩(wěn)定性和應(yīng)用潛力都會(huì)更高一些。
  • Prompt插件:更多針對(duì)個(gè)人應(yīng)用者,因?yàn)榇竽P蛯?duì)于Prompt高度敏感,所以給大模型一個(gè)prompt設(shè)定,大模型基本可以較好的完成絕大多數(shù)的個(gè)人問(wèn)題。這也就導(dǎo)致大模型的插件(或者function)生態(tài)很強(qiáng)。

不論大模型(特指LM)如何強(qiáng)大,本質(zhì)上依舊是一個(gè)預(yù)測(cè)下一個(gè)單詞的語(yǔ)言模型,但是其對(duì)于語(yǔ)言的深刻理解,實(shí)際上賦予了它可以應(yīng)用到各行各業(yè)的潛力。成本下降、輕定制、交互界面自然化這三件事實(shí)際上加速促進(jìn)了這個(gè)進(jìn)程,這一未來(lái)體系中,除了基礎(chǔ)大模型的提供者之外,可能會(huì)有如下重要的參與者出現(xiàn):

  • 專(zhuān)家系統(tǒng)提供者:訓(xùn)練自己的expert模型,成為MOE架構(gòu)下的專(zhuān)家系統(tǒng)之一,這種相對(duì)封閉生態(tài)模式類(lèi)似于加入基礎(chǔ)大模型的開(kāi)放平臺(tái),成為服務(wù)供應(yīng)商之一,按調(diào)用次數(shù)收費(fèi);
  • 行業(yè)垂直應(yīng)用:基于Finetune、P-tuning精調(diào)大模型的訪問(wèn)方式,以低成本實(shí)現(xiàn)垂直行業(yè)的應(yīng)用;
  • Lora開(kāi)放生態(tài):為什么單挑Lora出來(lái)了,因?yàn)楝F(xiàn)在非AI行業(yè)的產(chǎn)品都需要自己的定制方案,但是一般大模型都作為核心資產(chǎn)存在大模型廠商云端,而lora這種在大模型之外外掛微調(diào)的方式,就可以做到不影響原始大模型的基礎(chǔ)上,開(kāi)放出去進(jìn)行微調(diào),同時(shí)這種輕量級(jí)微調(diào)的成本也更低;
  • Function開(kāi)發(fā)者:大模型的一些問(wèn)題也可以指望通過(guò)生態(tài)解決,例如GPT4最近推出的Function Call這種類(lèi)似外掛知識(shí)+檢索的方式,這個(gè)同時(shí)相當(dāng)于賦予了大模型在語(yǔ)言之外可以直接“操作”的權(quán)利,作為提供這種接口的開(kāi)發(fā)者有點(diǎn)像成為安卓或者IOS的開(kāi)發(fā)者;
  • 個(gè)人應(yīng)用者:對(duì)于不希望與大模型定制做交互的普通應(yīng)用者,可以以Prompt插件的方式在會(huì)話中訪問(wèn)大模型的某一部分能力,因?yàn)榇竽P蛯?duì)于Prompt具有極高的敏感性,僅僅Prompt提示以及in-context-learning就可以讓大模型指定領(lǐng)域效果相當(dāng)出眾,所以才會(huì)有相當(dāng)多人提及Prompt工程師的出現(xiàn)。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

圖片摘自C站社區(qū),隨便找了一張圖

實(shí)際上,我認(rèn)為后面大模型調(diào)整的界面有可能也會(huì)越來(lái)越UI化,就像SD的webui“AUTOMATIC1111”,通過(guò)戳戳點(diǎn)點(diǎn)實(shí)現(xiàn)模型調(diào)整,當(dāng)然其實(shí)這并不意味著不需要具備算法知識(shí)了,以圖像生成舉例,相當(dāng)多的SD微調(diào)模型都是一些基礎(chǔ)模型的簡(jiǎn)單衍生,真正調(diào)整的人依舊需要“面向模型debug”,只是把別人告知的參數(shù)直接生套在任何場(chǎng)景上,效果必然不佳。

另一方面,大模型的一些典型問(wèn)題,例如知識(shí)幻覺(jué),相當(dāng)多的論文解決知識(shí)幻覺(jué)的思路也是加入知識(shí)外掛檢索環(huán)節(jié),這些生態(tài)必然對(duì)大模型的應(yīng)用豐富性有增益。但是究其本質(zhì),我覺(jué)得這些問(wèn)題還是需要大模型本身去解決問(wèn)題,例如單向語(yǔ)言模型無(wú)法回顧和修改上文輸出,導(dǎo)致推理過(guò)程錯(cuò)誤,這種是否就應(yīng)該考慮雙向語(yǔ)言模型的發(fā)展方向。

⑧ 大模型的評(píng)估方法

大模型的評(píng)估原則和小模型沒(méi)有本質(zhì)區(qū)別,依舊是“評(píng)估模型性能的離線指標(biāo)”和“評(píng)估實(shí)際業(yè)務(wù)場(chǎng)景的業(yè)務(wù)指標(biāo)”,兩種方式結(jié)合。但是實(shí)際上因?yàn)榇竽P偷囊?guī)模和通用性,評(píng)估大模型實(shí)際上是一件更加復(fù)雜的事情,這方面有相當(dāng)多的論文提出了各種指標(biāo)作為評(píng)價(jià)依據(jù),還有一些提出了很多主觀性指標(biāo)例如“攻擊性”“不確定性”“毒害性”等等,但是在這之中,微軟對(duì)于GPT4的測(cè)試方法我覺(jué)得是最為合理的。

對(duì)于離線指標(biāo)

  • 除了模型基本性能的準(zhǔn)召、F1、AUC等等各項(xiàng)指標(biāo)之外,針對(duì)每一項(xiàng)子任務(wù)可以采用對(duì)應(yīng)的指標(biāo)例例如文本生成類(lèi)的BLEU、ROUGE等等,圖像類(lèi)的CIDER、METEOR、SPICE等等。
  • 另外針對(duì)于每種子任務(wù),目前專(zhuān)門(mén)測(cè)試集在逐步完善。例如BIG-BENCH(https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks)上面有214多種各個(gè)維度的任務(wù)數(shù)據(jù)集,這些測(cè)試集都可以用來(lái)測(cè)試大模型在某個(gè)維度的具體效果如何。

對(duì)于業(yè)務(wù)指標(biāo):這里不討論類(lèi)似CTR(點(diǎn)擊率)這種上線后用戶(hù)操作反饋的指標(biāo)。

對(duì)于類(lèi)似BIG-BENCH這種集合來(lái)說(shuō),我感覺(jué)其實(shí)對(duì)于真正測(cè)試大模型的效果可能過(guò)于簡(jiǎn)單了,更像是測(cè)試大模型覆蓋了哪些子任務(wù)的子任務(wù)測(cè)試集,類(lèi)比的話我感覺(jué)更像是功能測(cè)試集,而不是效果測(cè)試集。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

實(shí)際上BIG-BENCH中很多都是類(lèi)似【俄語(yǔ)問(wèn)答】、【上下文沖突】等等具有明確的正確錯(cuò)誤概念的任務(wù)。例如上面圖片中是我翻閱了我認(rèn)為相對(duì)正誤邊界模糊一些的【Sufficient Information】的任務(wù)中的一些示例,依舊可以看出問(wèn)題其實(shí)相對(duì)于現(xiàn)實(shí)真實(shí)問(wèn)題來(lái)說(shuō),測(cè)試集中的問(wèn)題邊界清晰度高得。

例如現(xiàn)實(shí)問(wèn)題中不會(huì)出現(xiàn)“我有一些書(shū),我丟了一半,我現(xiàn)在還有幾本書(shū)”這種顯性缺失的情況,而更可能是我上面以GPT4的會(huì)話能力舉例的“今天我是第一天上班,我應(yīng)該穿什么衣服”,要解答這個(gè)問(wèn)題實(shí)際上需要至少知道“個(gè)人性別身高體重”、“公司著裝規(guī)定”、“個(gè)人著裝偏好”、“天氣情況”等等前置信息才能給出答案,甚至還需要考慮不同國(guó)家地區(qū)的文化差異。

而這些隱含信息LLM是否能夠判斷出來(lái)是缺失的,我覺(jué)得這種問(wèn)題才是真正能夠測(cè)試大模型能力的問(wèn)題。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

上面的闡述的核心觀點(diǎn)在于,我認(rèn)為目前還沒(méi)有人提出一個(gè)真正可以測(cè)試大模型各個(gè)方面真實(shí)能力的測(cè)試集合。它可能需要像專(zhuān)家測(cè)試初學(xué)者的人類(lèi)一樣,以專(zhuān)業(yè)者的視角提出各種深度的問(wèn)題組成一個(gè)測(cè)試集合來(lái)進(jìn)行測(cè)試。

我很希望聚合各領(lǐng)域?qū)<业闹R(shí),創(chuàng)造這種公開(kāi)的能力測(cè)試集,以能真正推動(dòng)大模型在實(shí)用上更進(jìn)一步。實(shí)際上,大模型在很多的真實(shí)事務(wù)場(chǎng)景中都表現(xiàn)并不好,另一個(gè)典型的例子是如果我讓大模型寫(xiě)一份年終總結(jié),大模型甚至?xí)褬窍掳拥甑男±钜卜胚M(jìn)去,大模型不認(rèn)為有主次的概念,我覺(jué)得這些真實(shí)場(chǎng)景的模型能力都有待加強(qiáng)。

因此我其實(shí)十分推崇Miscrosoft對(duì)于大模型的測(cè)試評(píng)估方案,針對(duì)大模型的認(rèn)知學(xué)、數(shù)學(xué)、情感等等各個(gè)領(lǐng)域以評(píng)估人類(lèi)心智的題目方式來(lái)對(duì)大模型進(jìn)行測(cè)試評(píng)估,這種方式是更加合理的?!禨parks of Artificial General Intelligence: Early experiments with GPT-4 》這篇測(cè)試確實(shí)寫(xiě)的很好,我覺(jué)得與其我斷章取義,不如去看下原文https://arxiv.org/pdf/2303.12712.pdf。

另一層面,對(duì)于大模型真實(shí)應(yīng)用場(chǎng)景的業(yè)務(wù)指標(biāo),需要像微軟一樣以領(lǐng)域?qū)I(yè)人士測(cè)試人類(lèi)的方式,來(lái)構(gòu)造對(duì)應(yīng)的測(cè)試集合和數(shù)據(jù)指標(biāo),以來(lái)評(píng)估大模型某一方面的能力,當(dāng)然這首先可能需要測(cè)試人員成為這一領(lǐng)域的入門(mén)專(zhuān)家,了解如何以一個(gè)專(zhuān)家的視角來(lái)審查大模型的能力水平。

四、后記

1. 以另一個(gè)視角對(duì)大模型扯點(diǎn)別的

因?yàn)樽罱瓿鯇?duì)于法律領(lǐng)域也稍微涉獵了一些功利主義“最多數(shù)人最大善”的問(wèn)題,這些啟發(fā)我從另一個(gè)層面的思考大模型這件事:

  1. 大模型本身依舊是效率的化身,效率是否總是有益的?這件問(wèn)題其實(shí)很有意思,比如如果我們以電商減少了線下人與人之間的社交場(chǎng)景來(lái)看待電商,就會(huì)發(fā)現(xiàn)在生產(chǎn)大于消費(fèi)的時(shí)代下,電商實(shí)際上對(duì)于社會(huì)整體收入創(chuàng)造是減少的。那么對(duì)于大模型來(lái)說(shuō),其實(shí)也會(huì)有類(lèi)似的情況,如果所應(yīng)用的行業(yè)、甚至公司個(gè)體,整體是生產(chǎn)大于消費(fèi)的階段,那么再提效其實(shí)只會(huì)降低整體的產(chǎn)出收入總額。
  2. 大模型的高投入會(huì)帶來(lái)一個(gè)問(wèn)題,真正可以進(jìn)入的玩家數(shù)量很少,普通人甚至提出一個(gè)自己的假設(shè)都沒(méi)有辦法去實(shí)施驗(yàn)證(普通人總沒(méi)辦法買(mǎi)一堆A100每天做Fintune甚至預(yù)訓(xùn)練來(lái)實(shí)驗(yàn)自己的想法對(duì)吧)。這種格局實(shí)際上很容易導(dǎo)致壟斷現(xiàn)象,對(duì)于商業(yè)而言,壟斷的問(wèn)題不在于寡頭借助壟斷地位賺高額利潤(rùn),相反,過(guò)去的壟斷行業(yè)巨頭都傾向于不斷提高產(chǎn)品效率和質(zhì)量,而降低產(chǎn)品的售價(jià)。借助這種方式可以讓后來(lái)的玩家進(jìn)入門(mén)檻越來(lái)越高,對(duì)于大模型來(lái)說(shuō)更是這樣,當(dāng)你花費(fèi)了相當(dāng)多的投資人的錢(qián)和時(shí)間,做出來(lái)一個(gè)東西,但是頭部玩家已經(jīng)把效果提升了一倍,成本壓低了一倍,這個(gè)事情就完全沒(méi)有價(jià)值。

2. 談一談后續(xù)計(jì)劃

目前確定的一個(gè)計(jì)劃是,這次文章雖然寫(xiě)了很長(zhǎng),但是因?yàn)檫^(guò)度壓縮了,其實(shí)真正想展開(kāi)談的內(nèi)容并沒(méi)有展開(kāi)談,因此關(guān)于【對(duì)話】【寫(xiě)作】【情感】這些人類(lèi)社會(huì)抽象問(wèn)題的理解和實(shí)踐思路,打算拿出來(lái)虛擬人設(shè)計(jì)的一些實(shí)踐經(jīng)驗(yàn),和大家分享討論下我對(duì)這些本質(zhì)問(wèn)題的一些理解。在我們的實(shí)踐中,這些發(fā)現(xiàn)和理解每一條其實(shí)都讓輸出的效果產(chǎn)生了極大的變化。

再一個(gè)可能得計(jì)劃是,因?yàn)樽约阂恢北3种虡I(yè)學(xué)習(xí)的興趣,一直也希望和更多人探討,只是這方面咨詢(xún)公司和顧問(wèn)大佬太多,我的觀點(diǎn)也基本和大佬們雷同,說(shuō)實(shí)話沒(méi)啥信心能談啥新東西,暫定看看再說(shuō)吧。

在我寫(xiě)這篇文章的過(guò)程中,其實(shí)我也重新審視了下寫(xiě)作這件事,發(fā)現(xiàn)這篇是純粹的分享類(lèi)型的寫(xiě)作方式,要點(diǎn)穿插在文章內(nèi)部,如果是科普文章或者教科書(shū)可能就會(huì)根據(jù)要點(diǎn)來(lái)組織文章,如果是匯報(bào)和總結(jié)就會(huì)按照總分組織文章,這種觀察我覺(jué)得是大模型時(shí)代設(shè)計(jì)的重要?jiǎng)幼鳌_@些范式的定義行為決定了大模型對(duì)于【寫(xiě)作】這件事的理解是怎么樣的,也就是所謂的“設(shè)計(jì)者意志”問(wèn)題。

關(guān)于這篇文章,一開(kāi)始也提了本質(zhì)上只是個(gè)人抱著希望更多專(zhuān)業(yè)人士來(lái)找我交流探討的目的寫(xiě)的。雖然大模型出現(xiàn)之后加了一些討論群,但是群里充斥著基礎(chǔ)的問(wèn)題解答、新聞稿搬運(yùn),還有外行看熱鬧的討論。讓我對(duì)這些社群相當(dāng)失望,關(guān)于大模型本身的運(yùn)作機(jī)制,一些未來(lái)方向的實(shí)踐,這些問(wèn)題都需要:

  1. 一個(gè)高質(zhì)量的討論環(huán)境,這個(gè)環(huán)境應(yīng)該具備一些基本要求,比如討論人大模型的基本論文至少需要讀過(guò),當(dāng)然可能是我沒(méi)有接觸到,如果有的話,希望能夠進(jìn)入圈子:
  2. 一個(gè)實(shí)驗(yàn)想法的環(huán)境,這個(gè)環(huán)境具備大模型基本的訓(xùn)練和調(diào)試資源,可以以相對(duì)低廉的復(fù)用成本進(jìn)行各方向應(yīng)用的嘗試,這種實(shí)踐的環(huán)境對(duì)于大模型來(lái)說(shuō)實(shí)在寶貴;

這些變化對(duì)于偏好不確定性的人(比如我)來(lái)說(shuō),我覺(jué)得是一個(gè)十分有趣的變化。歡迎各位通過(guò)各種方式聯(lián)系到我,期待與各位的交流與研討。

本文由 @MrMa 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 干貨滿(mǎn)滿(mǎn),正在研讀

    來(lái)自北京 回復(fù)
  2. 干貨慢慢,正在研讀

    來(lái)自北京 回復(fù)
  3. 學(xué)習(xí)了

    來(lái)自廣東 回復(fù)
  4. 個(gè)人微信號(hào):歡迎找我討論

    來(lái)自安徽 回復(fù)
    1. hopemrma

      來(lái)自安徽 回復(fù)