中文字幕在线第亚洲,色偷偷AV老熟女色欲涩爱

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

關(guān)于如何設(shè)計(jì)AI的方法變革——大模型的AI設(shè)計(jì)方法

MrMa

2023-07-07

5 評(píng)論 8499 瀏覽 32 收藏

🔗 产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

大模型推動(dòng)人工智能應(yīng)用的設(shè)計(jì)方式產(chǎn)生了根本性的變革。無(wú)論你是AI資深設(shè)計(jì)專(zhuān)家還是外行人員，這篇文章都可以啟發(fā)你對(duì)AI設(shè)計(jì)的思考，帶你探索過(guò)去現(xiàn)在和未來(lái)的AI該如何進(jìn)行設(shè)計(jì)。

如果你已經(jīng)是一個(gè)AI設(shè)計(jì)人員，熟知基本的AI設(shè)計(jì)方法，可以直接跳到第三部分“三、大模型的AI設(shè)計(jì)方式變化”然后再與我探討想法。
如果你只對(duì)大模型出現(xiàn)后的應(yīng)用和前景感興趣，不關(guān)心大模型的原理以及基于原理，也不想成為大模型或者行業(yè)應(yīng)用的設(shè)計(jì)人員，可以直接跳到“理解大模型的應(yīng)用與方向”和“建構(gòu)大模型的生態(tài)”部分。
如果你不是一個(gè)AI設(shè)計(jì)人員，可以先讀第一部分“一、大模型出現(xiàn)以前AI設(shè)計(jì)方式”了解下過(guò)去的AI設(shè)計(jì)，相信大部分設(shè)計(jì)方式都可以在平時(shí)工作找到對(duì)應(yīng)。

本文定位是一篇AI從業(yè)者分享一些大模型對(duì)個(gè)人設(shè)計(jì)理念帶來(lái)的沖擊，對(duì)于大模型的技術(shù)發(fā)展更多給出一些二次思考內(nèi)容，原始的技術(shù)文獻(xiàn)不會(huì)直接搬運(yùn)或者詳細(xì)解釋?zhuān)贿^(guò)談及到的每個(gè)部分的技術(shù)都附帶了文獻(xiàn)來(lái)源，可供自行翻閱。

寫(xiě)這篇文章的動(dòng)機(jī)之一是關(guān)于大模型的社群討論偏于低質(zhì)，而且從大模型出現(xiàn)到現(xiàn)在，有意義的文章大多都圍繞模型本身的技術(shù)研究和工程復(fù)現(xiàn)進(jìn)行，很少有人從非純粹的技術(shù)層面探討一些大模型對(duì)于設(shè)計(jì)理念和行業(yè)相關(guān)方巨變的思考，因此希望可以通過(guò)分享自己的思考吸引更多愿意深度思考這件長(zhǎng)期機(jī)會(huì)的人。

這些對(duì)于目前的從業(yè)人士門(mén)檻、行業(yè)發(fā)展、應(yīng)用場(chǎng)景都具有很大的影響。作為一個(gè)一直在AI行業(yè)中的參與者，我把自己更多從非技術(shù)研究層面的思考和實(shí)踐經(jīng)驗(yàn)記錄下來(lái)，匯總成關(guān)于大模型時(shí)代AI的設(shè)計(jì)和看待問(wèn)題的新方式。

本文視角其實(shí)更多的是站在AI設(shè)計(jì)的視角上探討問(wèn)題，關(guān)于商業(yè)模式、技術(shù)原理等等會(huì)簡(jiǎn)短討論，本文更多的探討基于當(dāng)下的研究產(chǎn)生的一些思考，對(duì)于研究信息僅會(huì)提供一些引用鏈接，核心在于探討下AI設(shè)計(jì)的方式以及未來(lái)展望的看法。本文計(jì)劃集中分享以下幾個(gè)問(wèn)題的思考：

過(guò)去的AI設(shè)計(jì)是怎么做的？
關(guān)于收益估算、任務(wù)定義、級(jí)聯(lián)模式、誤差評(píng)估等等專(zhuān)業(yè)設(shè)計(jì)怎么做？
大模型對(duì)于設(shè)計(jì)方式產(chǎn)生了什么沖擊？
大模型的哪些能力導(dǎo)致了這些沖擊？
目前AI設(shè)計(jì)的門(mén)檻產(chǎn)生了什么變化？
消噪與序列預(yù)測(cè)到底帶來(lái)了哪些可以發(fā)散想像的方向？
大模型本身的限制有哪些應(yīng)用沒(méi)有辦法完成？

如果你是資深的AI行業(yè)設(shè)計(jì)人員，對(duì)于這些問(wèn)題已經(jīng)有了答案，希望你可以直接拉到文章最后，聯(lián)系到我和我探討下大模型對(duì)于你的設(shè)計(jì)方式產(chǎn)生了什么樣的沖擊和變化。如果你是非從業(yè)人員，看完我的思考之后，不知道你是不是覺(jué)得自己也理解了AI產(chǎn)品該如何設(shè)計(jì)，也可以開(kāi)始做AI的設(shè)計(jì)工作了。

一、大模型出現(xiàn)以前AI產(chǎn)品設(shè)計(jì)方式

在大模型出現(xiàn)以前，結(jié)合過(guò)去的實(shí)踐經(jīng)驗(yàn)，我將AI產(chǎn)品的設(shè)計(jì)總結(jié)為四個(gè)階段：目標(biāo)定義階段，收益估算階段，設(shè)計(jì)階段，迭代階段，下面結(jié)合一些實(shí)踐的案例分享一些個(gè)人思考。

1. 目標(biāo)定義階段

在討論AI產(chǎn)品的目標(biāo)定義時(shí)，實(shí)際上與其他類(lèi)型產(chǎn)品的目標(biāo)定義相差并不太大，因?yàn)锳I產(chǎn)品本質(zhì)上還是以一種更高效的方式在解決實(shí)際業(yè)務(wù)問(wèn)題，因此這個(gè)方面就不重點(diǎn)談到，會(huì)在下面環(huán)節(jié)的案例里穿插一些。

例如，針對(duì)面向消費(fèi)者（To C）的產(chǎn)品，關(guān)注增長(zhǎng)曲線是否達(dá)到自然傳播率、產(chǎn)品是否跨越了技術(shù)采用生命周期等等。

而針對(duì)面向企業(yè)（To B）的產(chǎn)品，需要關(guān)注利益相關(guān)方的市場(chǎng)收益、客戶(hù)認(rèn)知，還有特殊的奢侈品和禮品類(lèi)產(chǎn)品邏輯。

唯一的差異在于，過(guò)去AI的產(chǎn)品設(shè)計(jì)需要額外關(guān)注【技術(shù)可達(dá)性】，另一方面因?yàn)榭蛻?hù)基本上完全不懂AI，不能指望客戶(hù)提供關(guān)于他所在行業(yè)的AI設(shè)計(jì)思路，而是需要想辦法先把自己變成客戶(hù)行業(yè)的專(zhuān)家，告訴客戶(hù)需要什么，就像拿著錘子找釘子，這一點(diǎn)和一般的設(shè)計(jì)有很大不同。

對(duì)于商業(yè)方面的目標(biāo)設(shè)定問(wèn)題，許多業(yè)界大咖已經(jīng)在商業(yè)分析、OKR、增長(zhǎng)等領(lǐng)域有深刻的時(shí)間和研討，就不班門(mén)弄斧了，這里強(qiáng)烈推薦大家直接關(guān)注劉潤(rùn)老師，作為劉潤(rùn)老師的五年死忠粉，他對(duì)于商業(yè)思想和方法，尤其是早期的很多內(nèi)容總能給我?guī)?lái)極大的啟發(fā)和幫助。

2. 收益估算階段

收益估算是在對(duì)于相關(guān)行業(yè)或者目標(biāo)場(chǎng)景具有一定了解之后，決定是否要投入這塊市場(chǎng)或需求場(chǎng)景，以及以什么樣的投入力度進(jìn)入，資深的設(shè)計(jì)者在估算收益之后，基本就已經(jīng)確定好大致的設(shè)計(jì)方案了。一般來(lái)講，收益估算會(huì)分為三個(gè)部分。

1）目標(biāo)大盤(pán)估算

比如目標(biāo)大盤(pán)的覆蓋率、用戶(hù)量、活躍率、交互量等信息，一般來(lái)說(shuō)需要來(lái)源于市場(chǎng)研究與洞察，如果是C端會(huì)來(lái)源于用研或者數(shù)據(jù)分析（一般是session分析）。

比如我需要構(gòu)建一個(gè)數(shù)據(jù)標(biāo)注平臺(tái)，我需要決策標(biāo)注平臺(tái)是要自建還是采購(gòu)三方，那其實(shí)我就大概需要對(duì)這個(gè)市場(chǎng)的大盤(pán)做一個(gè)分析，評(píng)估其中的關(guān)鍵資源和關(guān)鍵利益相關(guān)方我是否能夠撬動(dòng)？多大成本能否撬動(dòng)？以來(lái)決策這件事情是否值得做。例如我可以做如下分析：

1.標(biāo)注任務(wù)類(lèi)似滴滴打車(chē)，是典型的供給者（標(biāo)注員）、平臺(tái)、消費(fèi)者（需求企業(yè)）的三方市場(chǎng)。

2.三方市場(chǎng)要做起來(lái)，評(píng)估需要先撬動(dòng)哪一端，評(píng)估我的資源優(yōu)勢(shì)能夠撬動(dòng)標(biāo)注員，還是撬動(dòng)企業(yè)B端客戶(hù)渠道，能否更加高效的獲取客戶(hù)，比如我具有很強(qiáng)的個(gè)人品牌、企業(yè)品牌、第三方背書(shū)等都可以顯著降低獲客或者渠道成本。

3.若要建設(shè)標(biāo)注自研，一定是標(biāo)注員的人均標(biāo)注成本能夠顯著低于采購(gòu)（對(duì)內(nèi)部工具而言），或者能夠以極低成本獲取外部客戶(hù)（對(duì)于做外部市場(chǎng)而言），如果我兩者優(yōu)勢(shì)均不具備，或者生產(chǎn)成本顯著高于外采，那就應(yīng)該放棄自建。

4.當(dāng)然如果是出于企業(yè)信息安全，或者絕密信息保護(hù)的需要，那就完全是另一種邏輯，完全不可以用投產(chǎn)比來(lái)衡量。

2）影響面估算

影響面決定打算開(kāi)始做這件事的上限，就算技術(shù)持續(xù)發(fā)展，理想情況可以100%的解決問(wèn)題，影響面也就是可能得最大收益了，當(dāng)然隨著要求效果的持續(xù)提升，需要的數(shù)據(jù)量和成本都會(huì)指數(shù)上升，而每次優(yōu)化帶來(lái)的收益會(huì)遞減，經(jīng)常很多AI產(chǎn)品做到差不多就不會(huì)優(yōu)化了。

① 一般如果有線上數(shù)據(jù)的話，影響面估算主要來(lái)源于數(shù)據(jù)觀察和現(xiàn)象抽象的總結(jié)，就是采用歸納法來(lái)分析，例如線上搜索數(shù)據(jù)的多樣性不足，對(duì)線上日志分析后發(fā)現(xiàn)問(wèn)題的占比可能在5%，或者線上用戶(hù)有一些潛在情感交流訴求的比例在15%，這些都可以通過(guò)session分析的方式得到。

一般這種方式，TO B產(chǎn)品的數(shù)據(jù)分布相對(duì)比較固定，如果是TO C產(chǎn)品，會(huì)有兩種典型問(wèn)題：

1.新用戶(hù)都有【能力邊界試探現(xiàn)象】，會(huì)出現(xiàn)大量“無(wú)法理解”“閑聊”類(lèi)的數(shù)據(jù)，而一般7天后則會(huì)收斂到設(shè)備可滿(mǎn)足的一些交互領(lǐng)域，之后交互比例也會(huì)相對(duì)固定。試探類(lèi)交互有可能并不是用戶(hù)的真實(shí)需求。

2.因?yàn)門(mén)O C的AI類(lèi)產(chǎn)品一般都很難像觸控產(chǎn)品一樣，把自己的能力邊界直接在界面展示給用戶(hù)看，因此產(chǎn)品能力會(huì)影響用戶(hù)行為。因?yàn)樾掠脩?hù)階段用戶(hù)除了試探外，更多會(huì)嘗試自己未來(lái)希望產(chǎn)品幫自己解決的問(wèn)題，而當(dāng)產(chǎn)品無(wú)法解決問(wèn)題的時(shí)候，慢慢用戶(hù)就不再會(huì)發(fā)起這些需求，但是這些往往是設(shè)計(jì)者希望持續(xù)擴(kuò)展的產(chǎn)品能力，所以很多新需求的挖掘往往要從新用戶(hù)數(shù)據(jù)來(lái)。這個(gè)也是7天左右新用戶(hù)需求收斂的原因。

② 如果是缺乏一些線上交互數(shù)據(jù)，則和一般產(chǎn)品設(shè)計(jì)相同，需要采用市場(chǎng)調(diào)研或者用戶(hù)研究的方式開(kāi)展調(diào)研，輔以邏輯推理和統(tǒng)計(jì)學(xué)的后向歸納，得到一些可靠結(jié)論，比如最近招募用研，我就很喜歡問(wèn)如何驗(yàn)證數(shù)據(jù)可靠性以及推理相關(guān)性的問(wèn)題。

3）收益估算

一般采用邏輯演繹方式估計(jì)收益，在過(guò)去，和算法合作經(jīng)驗(yàn)豐富，經(jīng)常閱讀一些相關(guān)論文的資深A(yù)I產(chǎn)品，可以做到估算的相對(duì)較準(zhǔn)（當(dāng)然實(shí)際還取決于算法人員水準(zhǔn)），這一點(diǎn)尤其在TO B業(yè)務(wù)的客戶(hù)交流判斷方案和可行性時(shí)尤其重要，也是區(qū)分資深和非資深的因素。諸如有監(jiān)督的文本分類(lèi)任務(wù)可以做到多少，無(wú)監(jiān)督的文本聚類(lèi)任務(wù)SOTA效果是多少，那些任務(wù)技術(shù)可達(dá)，哪些任務(wù)技術(shù)不可達(dá)。

實(shí)際業(yè)務(wù)里，收益的估算一般會(huì)更復(fù)雜一些，因?yàn)閷?shí)際系統(tǒng)一般不會(huì)是一個(gè)任務(wù)就可以完成，甚至在大模型以前，很多因?yàn)閱稳蝿?wù)技術(shù)不可達(dá)，需要把一個(gè)任務(wù)拆解為多個(gè)任務(wù)組合才能實(shí)現(xiàn)，這樣的收益估算就更加困難一些，和實(shí)際的偏差也會(huì)更大一些。

3. 設(shè)計(jì)階段

AI產(chǎn)品的設(shè)計(jì)一般也是分幾個(gè)階段進(jìn)行，我把這個(gè)總結(jié)成六步設(shè)計(jì)，包括【問(wèn)題定義】【拆解問(wèn)題要素】【制定路徑/藍(lán)圖】【定義子任務(wù)】【定義子任務(wù)流程】【可行性推演】。以下主要結(jié)合兩年前的一個(gè)實(shí)踐案例，大致介紹下設(shè)計(jì)階段流程，因脫敏需要，案例的前置估算和部分設(shè)計(jì)細(xì)節(jié)會(huì)被我省略，省略部分會(huì)盡量插入一些其他案例。

對(duì)于AI設(shè)計(jì)來(lái)說(shuō)，邏輯基本素養(yǎng)尤其重要，在對(duì)于現(xiàn)實(shí)問(wèn)題的抽象過(guò)程中，經(jīng)常發(fā)現(xiàn)一些隱含的邏輯，而把這些邏輯全部抽象出來(lái)變成機(jī)器任務(wù)就是設(shè)計(jì)者的關(guān)鍵人物。經(jīng)常碰到的問(wèn)題有：

存在隱含的前提：比如某兩個(gè)維度之間存在因果關(guān)系或者相關(guān)關(guān)系，比如趨勢(shì)永遠(yuǎn)整體向上等等。這些很多都會(huì)被當(dāng)成人工先驗(yàn)知識(shí)，在模型里設(shè)置，而不是讓模型自己去學(xué)?；蛘弑热缥艺f(shuō)“去把垃圾扔一下”，隱含的前提假設(shè)是“你知道家里垃圾桶在哪”&“你知道丟垃圾的垃圾車(chē)在哪”
假設(shè)需要明確定義：比如我們假設(shè)數(shù)據(jù)是離散的還是連續(xù)的，數(shù)據(jù)之間是否具有關(guān)聯(lián)性。以丟垃圾的例子來(lái)說(shuō)，可能是我假設(shè)“垃圾中沒(méi)有什么超出你知識(shí)或者力量范圍的需要處理的物品”

這一部分用一個(gè)復(fù)雜度相對(duì)較低的例子分享下一些思考。在兩年前，業(yè)務(wù)部的老業(yè)務(wù)遭遇天花板，需要挖掘一些潛在的新業(yè)務(wù)出來(lái)。結(jié)合當(dāng)時(shí)業(yè)務(wù)的交互量越來(lái)越大，提了一個(gè)目標(biāo)是“從交互中發(fā)掘潛在需求”，對(duì)這個(gè)目標(biāo)進(jìn)行一個(gè)邏輯三段論的分析，會(huì)發(fā)現(xiàn)其實(shí)它其實(shí)隱含了一些沒(méi)有被明確定義的前提，以下問(wèn)題：

需要定義什么叫“潛在需求”？
交互中包含什么可以利用的信息？
如何進(jìn)行發(fā)掘的流程設(shè)計(jì)？

介紹下AI設(shè)計(jì)中的我理解的“任務(wù)”概念，機(jī)器學(xué)習(xí)和人工智能的專(zhuān)業(yè)書(shū)籍上有很多關(guān)于這塊的介紹，我主要從非算法人員視角，結(jié)合過(guò)去經(jīng)驗(yàn)說(shuō)下我的理解：

1.怎么理解任務(wù)：給AI明確邊界和達(dá)成量化條件的課題工作，最需要關(guān)注的兩個(gè)點(diǎn)也就是“明確的邊界”和“明確的可量化完成狀態(tài)”；

2.怎么理解子問(wèn)題：根據(jù)具體的任務(wù)目標(biāo)，拆解出需要解決的子問(wèn)題，并且制定出大問(wèn)題的解決路徑，子任務(wù)可以不完全貼合機(jī)器視角，從邏輯推衍上看如何實(shí)現(xiàn)目標(biāo)；

3.怎么理解子任務(wù)：子任務(wù)可以說(shuō)是從AI的視角，由子問(wèn)題對(duì)應(yīng)到的具體算法任務(wù)，每一個(gè)任務(wù)需要用一套算法或者組合算法來(lái)解決，關(guān)于這一塊，在后面的步驟中會(huì)詳細(xì)談一下；

4.一般任務(wù)的目標(biāo)如何定義，由于目標(biāo)是結(jié)合具體場(chǎng)景定義而來(lái)的，對(duì)于每個(gè)場(chǎng)景的深刻洞察我覺(jué)得才是設(shè)計(jì)者的核心能力，是一種把實(shí)際問(wèn)題抽象化的能力，定義系統(tǒng)要解決的場(chǎng)景核心是什么設(shè)計(jì)目標(biāo)，一般來(lái)說(shuō)會(huì)有一些常見(jiàn)參考，例如精準(zhǔn)，召回，多樣，排序，相關(guān)等等，目標(biāo)并不等同于指標(biāo)，諸如F1、AUC等單純?cè)u(píng)估模型性能的指標(biāo)就不能算做設(shè)計(jì)目標(biāo)，同樣的更多的場(chǎng)景其實(shí)需要根據(jù)場(chǎng)景，設(shè)計(jì)獨(dú)立的評(píng)價(jià)業(yè)務(wù)指標(biāo)，過(guò)去基本每項(xiàng)任務(wù)其實(shí)都有根據(jù)業(yè)務(wù)目的設(shè)計(jì)的復(fù)合指標(biāo)來(lái)衡量目的是否達(dá)到，知名的BLEU、ROUGE等也屬于具體業(yè)務(wù)指標(biāo)。

1）問(wèn)題定義

① 問(wèn)題是什么

本質(zhì)上是重新審視問(wèn)題，定義要解決的問(wèn)題本質(zhì)是什么，因?yàn)锳I行業(yè)的客戶(hù)需求是模糊的，客戶(hù)無(wú)法定義到問(wèn)題，所以需要把一個(gè)抽象的想法轉(zhuǎn)變?yōu)槎ㄐ曰蛘叨康木呦髥?wèn)題。

同時(shí)需要對(duì)需求場(chǎng)景進(jìn)行分析，不同業(yè)務(wù)場(chǎng)景需要的目標(biāo)差別很大，需要設(shè)計(jì)人員首先確定對(duì)于業(yè)務(wù)場(chǎng)景來(lái)說(shuō)，最重要的是什么。這里面其實(shí)更多的考驗(yàn)的是設(shè)計(jì)人員對(duì)于文化、社會(huì)、行為、人類(lèi)學(xué)、生物學(xué)、腦科學(xué)甚至心理學(xué)的理解（我不是很喜歡單純靠心理學(xué)得出結(jié)論的方式）。

比如三年前我們重新考慮語(yǔ)音搜索場(chǎng)景的搜索引擎問(wèn)題的時(shí)候，就發(fā)現(xiàn)這個(gè)場(chǎng)景和全文檢索（百度搜索）有很大不同，對(duì)于精準(zhǔn)的要求尤其高，但是召回?cái)?shù)量上反而要求要少，因?yàn)榇蠹叶枷Ｍ痪湓捴边_(dá)播放。

另一個(gè)例子是因?yàn)閿U(kuò)散模型的火爆，有些人用來(lái)設(shè)計(jì)一些擦邊福利圖片，然后就對(duì)于這種應(yīng)用場(chǎng)景進(jìn)行了一些思考。

對(duì)于這種場(chǎng)景來(lái)說(shuō)，其實(shí)多樣性就是一個(gè)最重要的指標(biāo)，提供的一定不能是單一女人，風(fēng)格一致的女人或者真實(shí)世界存在的女人，因?yàn)閺纳镞M(jìn)化視角來(lái)說(shuō)，幻想“性”和真實(shí)“性”一定要有差異，幻想不可以是真實(shí)生活可接觸的一些特性，這一點(diǎn)花花公司老板海夫納尤其懂得，《花花公子》上的女人的著裝、行為、性格在現(xiàn)實(shí)生活不可能找到，這也就是海夫納的生意經(jīng)。

第三個(gè)想到的例子，是去年一直在做虛擬人的東西，本質(zhì)上其實(shí)是在探索情感這種非剛需的價(jià)值。關(guān)于這一點(diǎn)，主要是參考了腦科學(xué)和心理學(xué)的交叉，包括心智系統(tǒng)、鏡像神經(jīng)元、邊緣系統(tǒng)、海馬體的構(gòu)成，以及據(jù)此總結(jié)的共情與共感兩類(lèi)對(duì)外情感基礎(chǔ)的形成。

這里因?yàn)槲覀儤I(yè)務(wù)目標(biāo)希望虛擬人和用戶(hù)之間建立情感信任，因此選擇共情路線，這就代表整個(gè)會(huì)話系統(tǒng)設(shè)計(jì)目標(biāo)是引起情感共鳴，和正常人人機(jī)會(huì)話、人和人的交流都顯著不同。例如用戶(hù)表達(dá)偏向情感類(lèi)事件的時(shí)候，一般情況下會(huì)話情感設(shè)定上，都需要對(duì)用戶(hù)表達(dá)贊同和理解，不論談?wù)搩?nèi)容如何。

關(guān)于這一部分，我的下一篇文章計(jì)劃是就打算詳細(xì)分享一下虛擬人設(shè)計(jì)的實(shí)踐，調(diào)研和運(yùn)用關(guān)于人的感性認(rèn)知如何建立，文學(xué)小說(shuō)撰寫(xiě)方法論及動(dòng)畫(huà)設(shè)計(jì)方法論等多學(xué)科領(lǐng)域知識(shí)，同時(shí)在交互上借鑒了【艾迪芬奇的記憶】，對(duì)于這款游戲的研究刷新了我對(duì)于人機(jī)交互設(shè)計(jì)的理解。

關(guān)于問(wèn)題如何定義強(qiáng)烈建議可以看一下《你的燈亮著嗎》，里面有大量啟發(fā)性的案例，比如關(guān)于錯(cuò)誤定義問(wèn)題導(dǎo)致成本大量浪費(fèi)，或者正確定義問(wèn)題使得復(fù)雜問(wèn)題一夜之間解決的例子。舉個(gè)例子，書(shū)里有提到“解決電梯擁堵問(wèn)題的一種方案，在每個(gè)上下班路上裝上鏡子，讓過(guò)路人都停下來(lái)整理妝容，就可以很好的解決電梯擁堵問(wèn)題?！?/p>

② 目標(biāo)場(chǎng)景最關(guān)注什么

第二個(gè)是需要分析對(duì)于目標(biāo)場(chǎng)景來(lái)說(shuō)，最關(guān)注的是哪個(gè)維度。下圖是一個(gè)抽象的曲線來(lái)描述這個(gè)問(wèn)題，由于準(zhǔn)召屬于一堆蹺蹺板指標(biāo)，在模型性能等同時(shí)候，往往是在根據(jù)業(yè)務(wù)場(chǎng)景在選擇曲線上滑動(dòng)選擇一端的點(diǎn)作為能力輸出。

這首先需要定義問(wèn)題所處的用戶(hù)場(chǎng)景中，是“精準(zhǔn)”更關(guān)鍵還是“召回”更加關(guān)鍵。雖然對(duì)于模型來(lái)說(shuō)，可以用AUC來(lái)衡量模型整體的性能情況的，但是在相同性能情況下，可以根據(jù)目標(biāo)場(chǎng)景調(diào)整召回和精準(zhǔn)的傾向性。在某些情況下，如果所在場(chǎng)景里，某個(gè)維度的重要性遠(yuǎn)超其他維度，即使模型整體性能下降了，最關(guān)鍵的維度顯著提升，也可能是一次有意義的優(yōu)化。

2）要素拆解

主要是拆分問(wèn)題得到解決需要的一些關(guān)鍵要素，哪些是解決問(wèn)題必備的關(guān)鍵要素，哪些是對(duì)于問(wèn)題有增益但是不關(guān)鍵的要素，這樣可以對(duì)后續(xù)的子任務(wù)拆分以及每個(gè)子任務(wù)的資源投入力度有一定的預(yù)期。熟悉TO C產(chǎn)品設(shè)計(jì)的應(yīng)該都熟悉TO C的業(yè)務(wù)藍(lán)圖繪制方式，目的都是一樣的，找到需要重資源投入解決的關(guān)鍵問(wèn)題。

結(jié)合兩年前“從交互中發(fā)掘潛在需求”的案例，首先對(duì)于“潛在需求”，我找了一些關(guān)鍵特性來(lái)描述這個(gè)概念，這些其實(shí)就可以算作這件事情拆分出來(lái)的要素?；谝貙?duì)應(yīng)的問(wèn)題，即可以找到系統(tǒng)設(shè)計(jì)的子任務(wù)，簡(jiǎn)單的子問(wèn)題對(duì)應(yīng)一般對(duì)應(yīng)到一個(gè)子任務(wù)，這里需要保證的是拆分出的要素和對(duì)應(yīng)的子任務(wù)是機(jī)器可以理解的。

對(duì)于這個(gè)案例來(lái)說(shuō)，核心就是如何看待“潛在需求”，我們可以想到一些要素來(lái)嘗試描述下理想中的潛在需求：

目前沒(méi)有被滿(mǎn)足：目的挖掘新的領(lǐng)域，而不是單純的挖掘交互失敗的case，畢竟挖掘已知需求或者已知需求的新表達(dá)范式并不是目標(biāo)。
用戶(hù)的需求是普遍的：畢竟是商業(yè)公司，肯定是希望優(yōu)先做投入產(chǎn)出比最高的事。
未來(lái)有增長(zhǎng)潛力：同樣的，商業(yè)公司考慮持續(xù)收益，但是這件事可以推理出如果我要預(yù)測(cè)一兩年后需求發(fā)展情況，做一個(gè)長(zhǎng)周期時(shí)序預(yù)測(cè)，必然不確定性極高，完全不具備可商業(yè)性，這種問(wèn)題就應(yīng)當(dāng)交給人解決。

從上面的三個(gè)要素，可以發(fā)現(xiàn)首先機(jī)器獨(dú)立一定無(wú)法完成任務(wù)，這個(gè)任務(wù)一定是人機(jī)耦合的。其次前兩個(gè)要素都有共性問(wèn)題，就是AI還是無(wú)法直接完成，因?yàn)檎也坏竭@些要素和問(wèn)題的邊界和明確的量化完成狀態(tài)，我就以“用戶(hù)需求普遍性”要素為例，做一下要素拆解。

因?yàn)檫壿嬌蟻?lái)說(shuō)我沒(méi)法一步得到投產(chǎn)比這種復(fù)合結(jié)果，我可以先計(jì)算收益，收益這個(gè)概念其實(shí)分析下，也會(huì)發(fā)現(xiàn)其實(shí)是由【影響面】和【轉(zhuǎn)化率】組成的復(fù)合指標(biāo)，轉(zhuǎn)化率這件事我認(rèn)為機(jī)器是不可達(dá)的，也需要人工判斷，那就只能進(jìn)行【影響面】的挖掘和預(yù)測(cè)。因此到這里我們其實(shí)已經(jīng)可以修正下我們的第一步的目標(biāo)了。

目前來(lái)看，我們的目標(biāo)實(shí)際上是設(shè)計(jì)一個(gè)“新需求領(lǐng)域的影響面挖掘系統(tǒng)”+“一套可視化后臺(tái)用于人工結(jié)合市場(chǎng)知識(shí)判斷新領(lǐng)域預(yù)期轉(zhuǎn)化率”。

應(yīng)該注意兩點(diǎn)：

1.熟悉概率、統(tǒng)計(jì)或者信息論的都了解，實(shí)際上每一次拆分，或者用組合方式解決問(wèn)題，都再次引入了誤差，代表系統(tǒng)整體效率的下降，所以應(yīng)當(dāng)盡可能端到端的輸入輸出直接解決問(wèn)題，避免過(guò)多的問(wèn)題和任務(wù)分解設(shè)計(jì)；

2.對(duì)于很多問(wèn)題實(shí)際上機(jī)器完全不可達(dá)，不可達(dá)原因可能是完全無(wú)法收集到數(shù)據(jù)、任務(wù)完全無(wú)法定義或者當(dāng)前技術(shù)效果無(wú)法商用，這個(gè)時(shí)候經(jīng)典的做法就是把問(wèn)題交還給用戶(hù)，采用人機(jī)耦合方式解決問(wèn)題，這個(gè)時(shí)候系統(tǒng)設(shè)計(jì)的目標(biāo)也應(yīng)該從【直接解決問(wèn)題】改變?yōu)椤据o助提高人類(lèi)的問(wèn)題解決效率】，其實(shí)很多產(chǎn)品都可以看到這類(lèi)影子，比如經(jīng)典的“幫助中心”或者“客服中心”。

實(shí)際上到這一步，大致的可達(dá)路徑其實(shí)心里已經(jīng)大致有數(shù)了。

3）路徑制定

以“從交互中發(fā)掘潛在需求”這個(gè)例子分享下我的一些思考，在最開(kāi)始的拆解中，我分解了三個(gè)初始問(wèn)題：

定義什么叫“潛在需求”？
交互中包含什么可以利用的信息？
如何進(jìn)行發(fā)掘的流程設(shè)計(jì)？

在前面我做了第一個(gè)問(wèn)題的分析，下面兩個(gè)問(wèn)題因?yàn)樯婷苡脩?hù)和業(yè)務(wù)信息了，我就簡(jiǎn)要闡述下：

① 交互中包含的可以利用的信息

實(shí)際上這個(gè)是經(jīng)典的信息論原理的利用，一般應(yīng)用到的會(huì)包括以下兩點(diǎn)，同樣的我以非算法的視角闡述下我的理解：

A. 信息的輸入一定要大于輸出，存在冗余才能通過(guò)算法壓縮輸出需要的信息，并且還原信息。

通俗點(diǎn)，比如模型完全沒(méi)有學(xué)習(xí)過(guò)小學(xué)數(shù)學(xué)，就不可能可以解決小學(xué)數(shù)學(xué)題。

像GPT這種大模型可以讓你輸入很短的幾句話，就幫你寫(xiě)出論文，原因在于GPT本質(zhì)上是一個(gè)語(yǔ)言模型，是語(yǔ)言模型訓(xùn)練過(guò)程輸入壓縮了相關(guān)的知識(shí)信息，因此才可以在很少輸入的情況下，讓語(yǔ)言模型補(bǔ)足需要的輸出。其實(shí)從GPT計(jì)算小學(xué)內(nèi)容經(jīng)常出錯(cuò)也可以看出這個(gè)原理，因?yàn)檫@類(lèi)信息不在GPT的訓(xùn)練數(shù)據(jù)中。

另一個(gè)直觀的理解方式是，給定1的輸入就最多只能有1的輸出，不可能產(chǎn)生1.1，實(shí)際上AI需要冗余信息，才可以保證壓縮傳遞后能夠輸出一樣的結(jié)果，即10的輸入產(chǎn)生1的輸出，因?yàn)樘幚砭鸵欢〞?huì)損失一些東西，有冗余才可以容忍更多處理空間。

B. 引入解決問(wèn)題需要的更多維度，尤其是正交維度的信息，就可以顯著提升模型效果。

其實(shí)這也是最常用的大幅優(yōu)化效果的方式，例如在語(yǔ)音類(lèi)的AI設(shè)計(jì)中，【用戶(hù)輸入的語(yǔ)音音頻】和【用戶(hù)的語(yǔ)言表達(dá)】就是兩個(gè)不重疊的正交維度，即使一些純粹的語(yǔ)音AI能力，例如聲紋識(shí)別、語(yǔ)音合成，引入語(yǔ)言的維度也可以大幅提升效果，因此尋找需要解決場(chǎng)景的更多相關(guān)正交維度，就是一種最常見(jiàn)的優(yōu)化方式。

當(dāng)然信息論的原理有很多條，只是在這件事上，我主要應(yīng)用了以上兩條。因?yàn)锳I的基礎(chǔ)是信息論，即使是在大模型時(shí)代，信息論的基本原理就像物理學(xué)基本法則，屬于目前基于統(tǒng)計(jì)的AI無(wú)法逾越的基本法則。

對(duì)于語(yǔ)音交互來(lái)說(shuō)，一般尋找到的正交可利用信息維度類(lèi)別有用戶(hù)音頻、用戶(hù)文本、用戶(hù)操作、交互周?chē)h(huán)境、操作發(fā)生時(shí)間等等方面進(jìn)行尋找，這個(gè)其實(shí)很簡(jiǎn)單我就省略了。

② 如何進(jìn)行發(fā)掘的流程設(shè)計(jì)

對(duì)于這件事，其實(shí)本質(zhì)上是檢驗(yàn)邏輯鏈合理性和前提假設(shè)成立可能性，做過(guò)基本的邏輯學(xué)訓(xùn)練的人都可以做到，實(shí)際這件事我也是指導(dǎo)一個(gè)校招生就讓他完成了，大致可以這么思考這件事：

A. 首先通過(guò)定義一些交互失敗的特征，一般都是通過(guò)定義【顯性正反饋】【顯性負(fù)反饋】【隱性正反饋】【隱性負(fù)反饋】來(lái)實(shí)現(xiàn)交互失敗的case判斷，敏感原因我省略具體特征。但是其實(shí)這樣無(wú)法區(qū)別幾類(lèi)問(wèn)題：

效果有問(wèn)題：因?yàn)樗惴ㄐЧ麊?wèn)題、或者用戶(hù)自身問(wèn)題導(dǎo)致交互失敗；
已有需求新的表達(dá)范式：例如【影視】新增“制片商說(shuō)法方式”；
新領(lǐng)域需求：比如奧運(yùn)會(huì)來(lái)了，我們需要重新定義一個(gè)奧運(yùn)會(huì)領(lǐng)域。

對(duì)于這種邊界很模糊的分類(lèi)問(wèn)題，AI基本無(wú)能為力，因此思路上只能并行構(gòu)造兩套系統(tǒng)，一套挖掘“效果問(wèn)題”的case，一套挖掘“新需求/新范式”的case，一套設(shè)計(jì)上側(cè)重利用已有知識(shí)挖掘關(guān)聯(lián)性，一套側(cè)重新需求發(fā)現(xiàn)。兩套系統(tǒng)一定會(huì)有重疊，但是配合也可以解決問(wèn)題。

一種典型的交互失敗案例

B. 要實(shí)施挖掘，可以想到的邏輯鏈及匹配的前提假設(shè)有：

a. 假設(shè)線上用戶(hù)的交互說(shuō)法，同類(lèi)的需求具備一些明顯的共性，不同類(lèi)的具有顯著差異。

a.i. 那可以直接嘗試先進(jìn)行無(wú)監(jiān)督聚類(lèi)，將數(shù)據(jù)劃分成一堆類(lèi)別，即可拿到比如，線上100w數(shù)據(jù)，有幾類(lèi)需求（比如天氣1w，股票2w），當(dāng)然沒(méi)有先驗(yàn)知識(shí)注入的情況下我只能得到【category1】【category2】【category3】
a.ii. 接下來(lái)第二步處理如何知道【category1】【category2】【category3】，分別是什么，可以想到最簡(jiǎn)單的方式是，假設(shè)我可以先給系統(tǒng)注入知識(shí)，告訴它什么樣的數(shù)據(jù)叫“天氣”那不就可以完成任務(wù)

需求挖掘流程的簡(jiǎn)單想法

b. 這種流程下，接下來(lái)的子任務(wù)定義就很簡(jiǎn)單，“聚類(lèi)+分類(lèi)”就可以實(shí)現(xiàn)，但是這中邏輯鏈存在明顯的問(wèn)題：

問(wèn)題1：這個(gè)流程里無(wú)監(jiān)督聚類(lèi)的準(zhǔn)確度是最重要的，因?yàn)楹罄m(xù)的分類(lèi)環(huán)節(jié)是基于已有聚類(lèi)流程開(kāi)展的，邏輯上第一個(gè)環(huán)節(jié)的效果就尤其重要，因?yàn)槿绻谝粋€(gè)環(huán)節(jié)效果只有50%，那基本后面就和拋硬幣瞎猜一樣了。

然而實(shí)際上，調(diào)研了下業(yè)界的無(wú)監(jiān)督聚類(lèi)SOTA，確實(shí)低的嚇人，但是可以看到在加入一些知識(shí)做半監(jiān)督之后，效果提升明顯，但是與此同時(shí)卻喪失了發(fā)現(xiàn)訓(xùn)練外的新需求的能力，這個(gè)對(duì)于我們業(yè)務(wù)場(chǎng)景來(lái)說(shuō)是不可接受的。

Discovering New Intents with Deep Aligned Clustering（https://arxiv.org/abs/2012.08987）

問(wèn)題2：假設(shè)我真的有這樣一份結(jié)構(gòu)化的知識(shí)，那本質(zhì)上我的任務(wù)還沒(méi)開(kāi)始其實(shí)已經(jīng)完成了，因?yàn)槲壹热灰呀?jīng)都可以知道什么數(shù)據(jù)是什么需求了，直接去匹配就可以了，沒(méi)必要做一個(gè)挖掘系統(tǒng)了，這是一個(gè)典型的先有雞還是先有蛋的問(wèn)題。

c. 所以在我們沒(méi)有一個(gè)完善的結(jié)構(gòu)化知識(shí)，并且無(wú)監(jiān)督聚類(lèi)效果肯定無(wú)法商用的前提下，要怎么來(lái)做這件事呢？這里細(xì)節(jié)就不闡述了，以下是當(dāng)初思考的某幾個(gè)想法：

思路1：我拿不到精準(zhǔn)的結(jié)構(gòu)化知識(shí)，那么我是否可以拿到一些相對(duì)粗的知識(shí)呢?比如維基百科、SNS社區(qū)、各種門(mén)戶(hù)網(wǎng)站都有很好的粗粒度非結(jié)構(gòu)化或者半結(jié)構(gòu)化知識(shí)；
思路2：像Google、Baidu這類(lèi)搜索引擎，他們構(gòu)造原理上需要爬蟲(chóng)爬取全世界的網(wǎng)頁(yè)，并且進(jìn)行相關(guān)性檢索，因此我們可以假設(shè)一個(gè)新query的相關(guān)實(shí)體或者query本身，搜索引擎可以提供高相關(guān)度的網(wǎng)頁(yè)，那我們就可以用搜索接口的Top N結(jié)果去挖掘一些潛在粗粒度知識(shí)；
思路3：直接拿到大量數(shù)據(jù)聚類(lèi)處理不可行的話，我們是否借鑒“新query發(fā)現(xiàn)”的思路，從單條數(shù)據(jù)切入，先找到單條的新需求數(shù)據(jù)，然后再推廣找到類(lèi)似新需求范式的影響面，但是其實(shí)這樣設(shè)計(jì)會(huì)有一個(gè)問(wèn)題，就是以【新范式】代替了【新需求】，范式定義就很重要，比如引入語(yǔ)義、語(yǔ)法等等就比單純的文本近似靠譜得多，但是這樣實(shí)際上挖掘到的需求影響面會(huì)比實(shí)際??；
思路4：技術(shù)不可達(dá)的話，通過(guò)人機(jī)耦合來(lái)完成任務(wù)，比如構(gòu)造一個(gè)挖掘平臺(tái)，每天把挖掘到的同一類(lèi)的新大類(lèi)需求拋到上面，由人工去標(biāo)記這是什么需求。這種思路的話就需要內(nèi)部拉通一個(gè)“需求閉環(huán)團(tuán)隊(duì)”，要求大家每天都上平臺(tái)做需求分析。

這里每種思路的后續(xù)設(shè)計(jì)思考我就省略了，簡(jiǎn)單說(shuō)做一些可行性的推衍之后，各種思路結(jié)合做了第一版的簡(jiǎn)單路徑設(shè)計(jì)，細(xì)節(jié)諸如粗粒度知識(shí)如何獲取之類(lèi)的就省略了：

直接處理全部數(shù)據(jù)聚類(lèi)效果不可達(dá)，逆向思維，從單條數(shù)據(jù)開(kāi)始找單條數(shù)據(jù)的近似類(lèi)

如果目前想不到什么假設(shè)，或者對(duì)于場(chǎng)景沒(méi)有什么了解，則需要先補(bǔ)充自己對(duì)于這塊的了解，一般來(lái)說(shuō)是從現(xiàn)網(wǎng)交互數(shù)據(jù)，或者線下用研中獲取一些信息。

4）子任務(wù)定義

核心是把之前拆解的子問(wèn)題和路徑，轉(zhuǎn)化成算法上的AI子任務(wù)，子任務(wù)定義從技術(shù)上來(lái)說(shuō)可以說(shuō)是決定整個(gè)系統(tǒng)效果上限的動(dòng)作，定義錯(cuò)了子任務(wù)后面的算法結(jié)構(gòu)再怎么優(yōu)化，再怎么加高質(zhì)量數(shù)據(jù)，效果也很難上得去。建議和算法負(fù)責(zé)人討論完成，需要資深算法人員的深度參與，因?yàn)閺倪@里開(kāi)始已經(jīng)要開(kāi)始規(guī)劃技術(shù)路線了，甚至我其實(shí)覺(jué)得算法才是起到主導(dǎo)作用。這部分我只是從非算法的視角結(jié)合案例談一點(diǎn)粗淺理解。

從大類(lèi)來(lái)說(shuō)，AI可以分為兩個(gè)大類(lèi)任務(wù)【判別】和【生成】，其實(shí)這也分別標(biāo)識(shí)了兩條AI發(fā)展路線。除此以外AI我個(gè)人認(rèn)為，主要需要了解的通用AI子任務(wù)有以下幾類(lèi)：

分類(lèi)（Classification）：將數(shù)據(jù)劃分到預(yù)先定義好的類(lèi)別中。
聚類(lèi)（Clustering）：根據(jù)相似性對(duì)數(shù)據(jù)進(jìn)行分組。
回歸（Regression）：預(yù)測(cè)一個(gè)連續(xù)值變量。
排序（Ranking）：對(duì)項(xiàng)目按照相關(guān)性或優(yōu)先級(jí)進(jìn)行排序。
檢索（Retrieval）：從大量數(shù)據(jù)中查找與查詢(xún)相關(guān)的信息。
關(guān)聯(lián)規(guī)則挖掘（Association Rule Mining）：發(fā)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系。
時(shí)序分析（Time Series Analysis）：預(yù)測(cè)基于時(shí)間序列數(shù)據(jù)的未來(lái)值或趨勢(shì)。
異常檢測(cè)（Anomaly Detection）：識(shí)別數(shù)據(jù)中的異?；螂x群值。

其他的一些子任務(wù)很多是算法中間過(guò)程，例如超參優(yōu)化、Embedding等等，這些我覺(jué)得非算法了解大致用途即可?；蛘呤且恍┚唧w業(yè)務(wù)場(chǎng)景可能用到的，例如自然語(yǔ)言處理中的NER、句法分析、指代消解等等，這些根據(jù)業(yè)務(wù)場(chǎng)景需要補(bǔ)充對(duì)應(yīng)知識(shí)。

這個(gè)方便理解重要性可以舉一個(gè)四年前的案例。當(dāng)時(shí)的背景是我們發(fā)現(xiàn)全文檢索方案在語(yǔ)音場(chǎng)景的搜索中效果很一般，需要重新設(shè)計(jì)一個(gè)語(yǔ)音場(chǎng)景的搜索引擎，其中有一個(gè)子問(wèn)題，當(dāng)初我想首先必須了解用戶(hù)表達(dá)的資源的結(jié)構(gòu)化知識(shí)是什么樣子的，例如《戰(zhàn)狼》的主演是誰(shuí)、出品公司是啥、角色哪些討喜、情節(jié)是啥、輿論評(píng)價(jià)如何等等。這樣我可以有更多維度的輸入，最終的輸出設(shè)計(jì)空間就很大。

針對(duì)這件事，我們覺(jué)得需要一個(gè)豐富的影視知識(shí)圖譜，然后我們想到以下幾個(gè)點(diǎn)：

1.比如豆瓣、貓眼、時(shí)光網(wǎng)這種三方網(wǎng)站，其實(shí)有大量的線上線下影視結(jié)構(gòu)數(shù)據(jù)、影評(píng)數(shù)據(jù)等等，甚至微博、小紅書(shū)、Twitter等等有相關(guān)輿論討論；

2.比如騰訊、優(yōu)酷、愛(ài)奇藝、Netflix、Hulu、HBO等等網(wǎng)站，每家有自己版權(quán)的影視，其中也含有不少獨(dú)家影視知識(shí)信息；

3.當(dāng)時(shí)和算法負(fù)責(zé)人合計(jì)把多個(gè)來(lái)源整合到一起，就可以得到一份最全的影視知識(shí)圖譜，比如我們有豆瓣的《小豬佩奇》和HBO的《小豬佩奇》，把兩邊字段合并就可以得到更全的《小豬佩奇》知識(shí)。

4.然后合并這一步，我們想當(dāng)然的認(rèn)為，這是一個(gè)分類(lèi)任務(wù)，因?yàn)槲抑灰袛喽拱甑摹缎∝i佩奇》和HBO的《小豬佩奇》是不是一個(gè)東西，是就合并到一起就可以了。

再把其他的子問(wèn)題思考加入，到這里至少當(dāng)初我們覺(jué)得邏輯上沒(méi)有任何問(wèn)題，結(jié)果做出來(lái)我們發(fā)現(xiàn)不管怎么優(yōu)化模型結(jié)構(gòu)和數(shù)據(jù)，效果都做不上去，甚至神經(jīng)網(wǎng)絡(luò)的效果和用來(lái)做demo對(duì)比的傳統(tǒng)機(jī)器學(xué)習(xí)的效果基本一致。后來(lái)復(fù)盤(pán)我們才發(fā)現(xiàn)子任務(wù)定義錯(cuò)了，這個(gè)場(chǎng)景實(shí)際上是一個(gè)排序任務(wù)，因?yàn)椤缎∝i佩奇》各個(gè)來(lái)源可能有上百部，以一個(gè)來(lái)源為基礎(chǔ)逐一對(duì)比增加信息，實(shí)際上模型看不到其他來(lái)源的信息，如果是排序任務(wù)，模型就可以一次性輸入全部信息比對(duì)。

子任務(wù)定義后需要注意以下幾點(diǎn)：

子任務(wù)是否符合需求場(chǎng)景：即子任務(wù)定義是否正確。
子任務(wù)是否具備可行性：對(duì)于計(jì)算機(jī)來(lái)說(shuō)不可計(jì)算任務(wù)，比如無(wú)法通過(guò)圖靈機(jī)測(cè)試的；或者時(shí)間或者成本過(guò)高的任務(wù)，例如參數(shù)訓(xùn)練需要30臺(tái)超級(jí)計(jì)算機(jī)計(jì)算3年（當(dāng)然看公司經(jīng)濟(jì)實(shí)力），這些都可以認(rèn)為不具備可行性。
子任務(wù)效果上是否ok：可以先調(diào)研下業(yè)界的子任務(wù)Sota，效果無(wú)法商用的也沒(méi)有意義。

這里還是用上面的影視知識(shí)圖譜舉個(gè)例子，當(dāng)時(shí)我們引入了影視海報(bào)作為額外正交維度，提升合并效果，這件事也犯過(guò)一個(gè)小的定義錯(cuò)誤，最開(kāi)始想當(dāng)然認(rèn)為比對(duì)圖像相似度即可，后來(lái)發(fā)現(xiàn)實(shí)際任務(wù)要復(fù)雜得多，只是這次問(wèn)題在設(shè)計(jì)階段就糾正了。

當(dāng)然除了調(diào)整子任務(wù)定義，上述問(wèn)題還可以通過(guò)清洗數(shù)據(jù)解決，訓(xùn)練數(shù)據(jù)中的噪音對(duì)于AI來(lái)說(shuō)會(huì)嚴(yán)重影響效果，即使是語(yǔ)音識(shí)別中的噪音環(huán)境中的識(shí)別，更多也是單獨(dú)對(duì)固定頻率的噪音建模，過(guò)濾這些噪音信號(hào)，訓(xùn)練數(shù)據(jù)的高質(zhì)量是保證AI效果的關(guān)鍵。對(duì)于子任務(wù)定義，案例涉密的分析過(guò)程我就省略了，這件事確實(shí)很看水平。

5）子任務(wù)流程

子任務(wù)定義完成之后，就需要設(shè)計(jì)一套流程將其組合成完整的解決方案，這里除了邏輯上怎么把子任務(wù)關(guān)聯(lián)起來(lái)以外，經(jīng)驗(yàn)上來(lái)說(shuō)有兩種常用到設(shè)計(jì)模式：

① 級(jí)聯(lián)結(jié)構(gòu)：一個(gè)子任務(wù)的輸出會(huì)被下一個(gè)子任務(wù)所使用。

經(jīng)常在一些【分類(lèi)子任務(wù)+其他子任務(wù)】的模式中使用，例如如果是一個(gè)購(gòu)物網(wǎng)站，我們可以先把用戶(hù)分類(lèi)成“購(gòu)物狂人”、“剛需購(gòu)買(mǎi)”、“優(yōu)惠券狂人”、“奢侈品愛(ài)好者”等等類(lèi)型，然后對(duì)每個(gè)類(lèi)型的用戶(hù)分別構(gòu)建模型，由分類(lèi)模型判定后，每種模型分別打分，輸出結(jié)果后吧結(jié)果拋給對(duì)應(yīng)的推薦模型給出推薦結(jié)果。

② 中立類(lèi)：在分類(lèi)任務(wù)中比較常用，比如分類(lèi)任務(wù)中經(jīng)常有一些不認(rèn)識(shí)的數(shù)據(jù)，或者搖擺數(shù)據(jù)，就可以加入拒識(shí)模式或者定義一個(gè)搖擺類(lèi)，就可以讓分類(lèi)效果大幅提升。

例如自然語(yǔ)言理解的意圖分類(lèi)里，就可以定義“影視、音樂(lè)、笑話、天氣、拒識(shí)”幾個(gè)類(lèi)別，再比如要分析運(yùn)動(dòng)對(duì)于治療頸椎病是否有效，就可以定義“有效、無(wú)效、中立”幾個(gè)類(lèi)別，比單純定義“有效、無(wú)效”會(huì)好很多。

其他的則需要根據(jù)業(yè)務(wù)場(chǎng)景需要看如何設(shè)計(jì)，比如上文提到的“從交互中發(fā)掘潛在需求”的流程中，實(shí)際上就是一個(gè)持續(xù)運(yùn)行的分類(lèi)任務(wù)，同時(shí)維護(hù)一個(gè)待聚類(lèi)池，滿(mǎn)足一定條件設(shè)定就觸發(fā)聚類(lèi)。

當(dāng)然實(shí)際算法要處理的設(shè)計(jì)問(wèn)題要多的多，諸如檢查點(diǎn)設(shè)置、數(shù)據(jù)Pipeline、重平衡等等，只是作為非算法人員，我認(rèn)為主要以上是需要考慮的，其他的了解即可，相信你的算法負(fù)責(zé)人的專(zhuān)業(yè)性。

驗(yàn)收指標(biāo)制定

實(shí)際上，一般AI產(chǎn)品或者能力都會(huì)有個(gè)驗(yàn)收階段，例如觀察混淆矩陣，AUC等離線驗(yàn)收模型效果，觀察制定的業(yè)務(wù)指標(biāo)在各種集合上的表現(xiàn)。這里主要是分享一些關(guān)于設(shè)計(jì)的思考，就不仔細(xì)談這件事，但是根據(jù)應(yīng)用場(chǎng)景特性制定業(yè)務(wù)的驗(yàn)收指標(biāo)這件事很重要。這個(gè)指標(biāo)和模型的性能評(píng)價(jià)指標(biāo)無(wú)關(guān)，有些時(shí)候模型的性能指標(biāo)不變甚至有所下降，但是業(yè)務(wù)關(guān)鍵指標(biāo)提升了，對(duì)具體業(yè)務(wù)來(lái)說(shuō)也是一次有益的優(yōu)化。

關(guān)于業(yè)務(wù)關(guān)鍵指標(biāo)制定，一般來(lái)說(shuō)都不是精準(zhǔn)度、召回率、多樣性等等這種單一維度指標(biāo)，一般都是復(fù)合指標(biāo)，而且為了排除絕對(duì)數(shù)量的影響，一般都是比例型指標(biāo)。關(guān)于驗(yàn)收另外重要的一點(diǎn)是，指標(biāo)一定是分兩類(lèi)的：

在線評(píng)價(jià)指標(biāo)：用于在系統(tǒng)做好之后進(jìn)行驗(yàn)收的指標(biāo)?？梢岳斫鉃榧词共欢畠?nèi)部邏輯的小白，也有一個(gè)直觀方法評(píng)判結(jié)果如何。以人機(jī)會(huì)話舉例的話，可以設(shè)計(jì)例如對(duì)話回復(fù)是否符合常識(shí)，人設(shè)是否凸顯等等。
離線評(píng)價(jià)指標(biāo)：用于在系統(tǒng)研發(fā)階段評(píng)估系統(tǒng)質(zhì)量的指標(biāo)?？梢岳斫鉃閮?nèi)部產(chǎn)研人員評(píng)估每個(gè)維度的效果是否達(dá)到預(yù)期，指導(dǎo)迭代的指標(biāo)。以人機(jī)會(huì)話舉例的話，可以設(shè)計(jì)例如QA相關(guān)度、情緒識(shí)別準(zhǔn)確度、情緒應(yīng)對(duì)策略是否合理、回復(fù)文本風(fēng)格是否幽默等等。

假設(shè)為上述的“交互需求挖掘”制定業(yè)務(wù)指標(biāo)，雖然中間有很多的子任務(wù)，但是我可以關(guān)注每條數(shù)據(jù)是否被正確分類(lèi)了。因?yàn)檫@本質(zhì)上是一個(gè)效率系統(tǒng)，而且我已知聚類(lèi)的SOTA其實(shí)不高，但是這個(gè)誤差我可以接受，我其實(shí)更關(guān)注盡量少的使用人工，例如我可以定義“保證每類(lèi)需求95%類(lèi)純度基礎(chǔ)上，被正確召回到類(lèi)別里的數(shù)據(jù)占80%以上”，當(dāng)然實(shí)際不是這個(gè)指標(biāo)，只是隨便舉個(gè)例子。

6）可行性推演

主要是回頭評(píng)估整個(gè)解決方案的問(wèn)題，在檢驗(yàn)子任務(wù)定義和流程設(shè)計(jì)之后，主要是需要預(yù)估下整個(gè)系統(tǒng)的誤差和冗余大概有多少，以及評(píng)估應(yīng)用場(chǎng)景是否可以接受這種級(jí)別的誤差。

① 誤差評(píng)估

對(duì)于誤差評(píng)估來(lái)說(shuō)，我認(rèn)為設(shè)計(jì)人員應(yīng)該在設(shè)計(jì)完之后，大致就對(duì)自己的整個(gè)解決方案的誤差大致量級(jí)，或者說(shuō)實(shí)現(xiàn)了原始目標(biāo)的百分之多少有一個(gè)預(yù)估。

首先還是先分析需求場(chǎng)景的特性，不同場(chǎng)景對(duì)于誤差的容忍度是不同的，這個(gè)其實(shí)很好理解，比如軍工、安全等引用場(chǎng)景，誤差容忍度就很低，比如很多99.74%的【3-sigma法則】甚至很多企業(yè)實(shí)施的【6-sigma準(zhǔn)則】。
不同場(chǎng)景對(duì)于不同指標(biāo)的誤差容忍度也是不同的，這個(gè)也是為什么一般需要先定義目標(biāo)是什么（精準(zhǔn)，召回，多樣，排序，相關(guān)），比如軍工安全上，模型性能不變的情況下，可以犧牲召回來(lái)?yè)Q得高精準(zhǔn)度。
任務(wù)定義和初始目標(biāo)之間就有Gap，但是為了把抽象目標(biāo)變成可實(shí)施的，就會(huì)產(chǎn)生。
子問(wèn)題拆解或者子任務(wù)定義過(guò)程中，因?yàn)槟承┳訂?wèn)題走不通，或者子任務(wù)不可達(dá)，導(dǎo)致需要做一些邏輯降級(jí)，比如解決其中的一部分，讓系統(tǒng)變得可以實(shí)現(xiàn)，這個(gè)天然也就引入誤差。
定義設(shè)計(jì)流程中，如果不是以單一模型的方式設(shè)計(jì)的，而是采用的級(jí)聯(lián)模式，那么級(jí)聯(lián)本身就會(huì)帶來(lái)誤差，這個(gè)直觀上其實(shí)也很好理解，第一級(jí)輸出的誤差會(huì)被帶入到第二級(jí)。過(guò)往語(yǔ)音識(shí)別采用“聲學(xué)模型+語(yǔ)言模型”兩個(gè)正交維度分別建模的級(jí)聯(lián)模式設(shè)計(jì)，現(xiàn)在更多都采用“端到端識(shí)別模型”統(tǒng)一建模了，也是優(yōu)化掉這種誤差?？梢员划?dāng)成特征或者維度設(shè)計(jì)到一個(gè)模型里的，就盡量不要用級(jí)聯(lián)設(shè)計(jì)。
當(dāng)然還有一種誤差是模型本身可以做到多少效果，比如90%的效果，就這個(gè)模型這一環(huán)節(jié)有10%的誤差需要考慮。然后每一級(jí)的誤差和下一級(jí)的誤差之間是疊加關(guān)系，而不是簡(jiǎn)單加法。
有些任務(wù)天然需要對(duì)誤差保持高度敏感，例如生成式模型（例如大型語(yǔ)言模型GPT），相比于判別式模型，每一個(gè)環(huán)節(jié)的誤差都會(huì)被傳遞到下一次預(yù)測(cè)中被放大，因?yàn)檎Z(yǔ)言模型是逐字預(yù)測(cè)的，起初可能只是小數(shù)點(diǎn)后幾位的微小誤差，在最后會(huì)被放大到30%甚至50%的巨大誤差，像這類(lèi)任務(wù)需要對(duì)誤差高度敏感。

3年前當(dāng)初做過(guò)一個(gè)【無(wú)注冊(cè)聲紋識(shí)別系統(tǒng)】，這個(gè)系統(tǒng)是在用戶(hù)交互過(guò)程中，可以無(wú)感知的就實(shí)時(shí)判斷出“用戶(hù)是誰(shuí)”、“性別年齡情況如何”兩個(gè)重要畫(huà)像信息，而不需要用戶(hù)實(shí)現(xiàn)注冊(cè)自己的聲音，實(shí)現(xiàn)真正無(wú)感知。這個(gè)對(duì)于一些多人共用設(shè)備（例如電視、冰箱等家電）或者經(jīng)常有外人往來(lái)的地方（例畢竟外人不可能提前注冊(cè)）有很廣的應(yīng)用前景。

簡(jiǎn)單設(shè)想一下，這項(xiàng)能力可以用來(lái)做以下兩件事：

用來(lái)實(shí)時(shí)做交互人的識(shí)別，識(shí)別到是誰(shuí)之后，可以把這個(gè)設(shè)備調(diào)整到這人的個(gè)性化設(shè)定上去，例如內(nèi)容推薦、鬧鐘習(xí)慣、閑聊風(fēng)格等等；

用來(lái)做推薦系統(tǒng)，識(shí)別出是誰(shuí)之后，可以把個(gè)人的交互數(shù)據(jù)計(jì)算成畫(huà)像，讓公用設(shè)備也可以具備個(gè)性化推薦能力。

對(duì)以上兩個(gè)場(chǎng)景來(lái)說(shuō)，“實(shí)時(shí)交互人識(shí)別”對(duì)于誤差的容忍度就很低，具體來(lái)說(shuō)其實(shí)是精準(zhǔn)度要求極高，因?yàn)檎`差會(huì)連續(xù)傳遞到全部服務(wù)上。實(shí)際上基于單純“聲學(xué)”或者“語(yǔ)言”一維到兩維信息的無(wú)注冊(cè)聲紋已經(jīng)效果已經(jīng)不可達(dá)了，需要引入視覺(jué)維度做“多模交互人識(shí)別”，或者干脆把系統(tǒng)做成注冊(cè)式聲紋。

“推薦系統(tǒng)”對(duì)于誤差的容忍度就相對(duì)高，具體來(lái)說(shuō)召回要求不高，就算一個(gè)人被識(shí)別成了兩個(gè)人，導(dǎo)致畫(huà)像計(jì)算數(shù)據(jù)變少，其實(shí)影響也很小，另一方面精準(zhǔn)度要求也不高，因?yàn)槠鋵?shí)即使識(shí)別錯(cuò)了，用戶(hù)也比較難感知到。

如果以上面的視角方式再回頭審視下“交互中挖掘需求”這件事，就會(huì)發(fā)現(xiàn)之前設(shè)計(jì)的流程存在很多問(wèn)題。

A. 首先其實(shí)是有個(gè)概念偷換，且不論只能評(píng)估【需求影響面】，【轉(zhuǎn)化率】則需要人工評(píng)估這種問(wèn)題，其實(shí)在定義“文本聚類(lèi)”子任務(wù)的時(shí)候，已經(jīng)是再用【表達(dá)范式影響面】在替換【需求影響面】了，可以大概理解成其實(shí)只能挖掘某個(gè)需求的某個(gè)意圖，例如“看XXX的（XX年上映的）電影”，其實(shí)這只是影視需求的一種表達(dá)范式。

即使加入了【知識(shí)】給模型提供了一定的泛化能力，也需要知道這種泛化相對(duì)有限，畢竟【知識(shí)】本身承載的范式就有限，而人的表達(dá)范式是無(wú)限的。

B. 第二個(gè)當(dāng)然就是“分類(lèi)+聚類(lèi)”這種級(jí)聯(lián)結(jié)構(gòu)，導(dǎo)致誤差傳遞，每一級(jí)的誤差都被放大了；

C. 還有問(wèn)題是如果帶入業(yè)務(wù)場(chǎng)景分析子任務(wù)流程，就會(huì)發(fā)現(xiàn)如果聚類(lèi)時(shí)候召回不足，會(huì)導(dǎo)致沒(méi)被召回的結(jié)果變成新需求，結(jié)果就是有【CAT1(影視1)】【CAT2(影視2)】等等同一需求多個(gè)子類(lèi)。同時(shí)業(yè)務(wù)上會(huì)發(fā)現(xiàn)如果我們每天的全量數(shù)據(jù)都拿去全量聚類(lèi)，計(jì)算一次要48h，也就是說(shuō)輸入一批數(shù)據(jù)三天后才出結(jié)果，而系統(tǒng)還在不斷入數(shù)據(jù)，越堆積越多，并且三天一看數(shù)據(jù)也不符合業(yè)務(wù)快速試錯(cuò)的要求。

所以最后結(jié)合上述問(wèn)題，初版的設(shè)計(jì)問(wèn)題其中一種解法是改成以下的子任務(wù)和流程，最終的子任務(wù)并不是【聚類(lèi)+分類(lèi)】而是【分類(lèi)+聚類(lèi)+檢索+類(lèi)比對(duì)】的流式設(shè)計(jì)，而流程也變成輪次聚類(lèi)的設(shè)計(jì)方式，具體分析過(guò)程就省略了，以下給出了大致的設(shè)計(jì)思路示意圖。

② 冗余評(píng)估

這個(gè)一般是評(píng)估系統(tǒng)的效果上限、可優(yōu)化空間和優(yōu)化成本，比如如果系統(tǒng)已經(jīng)沒(méi)有太多優(yōu)化空間，也沒(méi)有其他正交維度可以引入了，那這個(gè)系統(tǒng)其實(shí)就是一錘子買(mǎi)賣(mài)，后面的效果運(yùn)營(yíng)服務(wù)即使想做也沒(méi)有任何收益，商業(yè)角度看就應(yīng)該側(cè)重思考怎么降本了。如果存在優(yōu)化空間，也要衡量效果優(yōu)化的投入，效果每提升1個(gè)點(diǎn)需要的成本都是指數(shù)上升的，效果越高再優(yōu)化的成本也就越高，甚至可能就是重構(gòu)一套新解決方案，所以其實(shí)有些不產(chǎn)生流量?jī)r(jià)值收入的TO B生意經(jīng)常做成一錘子買(mǎi)賣(mài)。

4. 迭代階段

在談AI如何迭代發(fā)展之前，想先探討一下關(guān)于AI能力邊界的問(wèn)題。關(guān)于這個(gè)問(wèn)題，我個(gè)人意見(jiàn)認(rèn)為吳軍老師提到過(guò)的他的導(dǎo)師總結(jié)的人工智能三大問(wèn)題總結(jié)的最為精煉。

1）設(shè)計(jì)者意志：可以說(shuō)AI目前依舊是設(shè)計(jì)者意志的體現(xiàn)，是設(shè)計(jì)者用他的設(shè)計(jì)意志代替了全人類(lèi)意志在設(shè)計(jì)。

關(guān)于這一點(diǎn)，我一個(gè)關(guān)系要好的算法負(fù)責(zé)人講過(guò)他的觀點(diǎn)是AI是一種“重構(gòu)+共現(xiàn)”，我覺(jué)得可以直觀理解成一種高級(jí)復(fù)讀機(jī)，不論是定義需要獲取的數(shù)據(jù)，還是定義任務(wù)，基于統(tǒng)計(jì)的AI還是一種對(duì)于信息的歸納和總結(jié)，來(lái)復(fù)現(xiàn)輸入的信息量。

這其實(shí)代表使用的AI代表的就是設(shè)計(jì)者的意志。即使是大模型，我使用OpenAI的GPT4和Antropic的Cluade做東西，也發(fā)現(xiàn)兩者在輸出信息傾向和邏輯上有明顯不同，有興趣的可以到https://nat.dev/ 或者What is the Vercel AI Playground?試用下。

2）隱私性：AI的隱私性問(wèn)題和安全問(wèn)題討論已經(jīng)很多了，就不贅述了，近年的聯(lián)邦學(xué)習(xí)技術(shù)對(duì)這個(gè)問(wèn)題提供了一些有益的解決方向思路。

3）非連續(xù)性：這里涉及一個(gè)基本邊界問(wèn)題，AI的前提假設(shè)是涉及的事務(wù)都是連續(xù)的，但是實(shí)際上現(xiàn)實(shí)世界的很多事情都是離散的、稀疏的，這有可能是因?yàn)闆](méi)有收集到足夠的信息，有可能是更多信息本身無(wú)法被收集，這就造成：

第一，并不是所有的問(wèn)題都可以被AI抽象。
第二，實(shí)際上AI抽象現(xiàn)實(shí)問(wèn)題的時(shí)候，離散問(wèn)題會(huì)被當(dāng)做連續(xù)性問(wèn)題解決，導(dǎo)致誤差。

因?yàn)锳I可以簡(jiǎn)單理解為一種基于統(tǒng)計(jì)學(xué)的高級(jí)復(fù)讀機(jī)，所以其實(shí)本質(zhì)上無(wú)法處理預(yù)料之外的情況，雖然可以對(duì)意外情況做一些兜底處理，但單靠模型的話，未定義的部分其實(shí)就相當(dāng)于在拋硬幣了。比如吳軍老師經(jīng)常舉一個(gè)例子，對(duì)于自動(dòng)駕駛來(lái)說(shuō)，如果車(chē)不認(rèn)識(shí)“沙袋”，那車(chē)路上碰到沙袋就只能停下，或者極端一點(diǎn)，一個(gè)人突然攔在車(chē)前面不走，車(chē)也只能停下，這就是非連續(xù)性。

為什么講這個(gè)呢，因?yàn)橐话愦蟮牡较蚝瓦@些限制就有關(guān)系，一般來(lái)講迭代的方向有幾種：

1）基于業(yè)務(wù)場(chǎng)景的基線版本，擴(kuò)展更多的業(yè)務(wù)其他應(yīng)用場(chǎng)景

例如用于縮減成本的本地化方案：把計(jì)算轉(zhuǎn)移到本地，就可以節(jié)省云端服務(wù)器費(fèi)用；
例如降低隱私問(wèn)題的聯(lián)邦學(xué)習(xí)方案：和區(qū)塊鏈的思路就有些相近。

2）提升到更好的效果

以前的AI有一個(gè)大問(wèn)題是，如果不更新訓(xùn)練數(shù)據(jù)，效果就會(huì)持續(xù)下降，當(dāng)然有些設(shè)計(jì)時(shí)候可以預(yù)留一些字典，可以后續(xù)靠填充字典數(shù)據(jù)，不更新模型提升對(duì)于新數(shù)據(jù)的適應(yīng)，減少下降趨勢(shì)。
如果可以尋找到更好的流程，或者更精準(zhǔn)的子任務(wù)定義，可以大幅提升整個(gè)系統(tǒng)的效果。
算法模型結(jié)構(gòu)本身的更新，這個(gè)問(wèn)題就相信你的算法負(fù)責(zé)人就可以了。

3）根據(jù)不同業(yè)務(wù)應(yīng)用場(chǎng)景的定制化

a. 比如前面提過(guò)的聲紋的例子，如果做家庭個(gè)人健康檔案，依據(jù)無(wú)注冊(cè)的聲紋就無(wú)法做到，因?yàn)闊o(wú)注冊(cè)聲紋的上限相對(duì)較低，優(yōu)勢(shì)在于便利和實(shí)時(shí)性。但這種場(chǎng)景需要至少95%以上的高精準(zhǔn)度才能使用，此時(shí)就要重新考慮方案。

b. 聲紋這個(gè)例子里，就可以使用注冊(cè)式聲紋（即現(xiàn)在大部分聲紋方案），先讓用戶(hù)說(shuō)幾句話，然后生成一個(gè)人，因?yàn)檫@種情況下可以人機(jī)耦合來(lái)解決噪音干擾問(wèn)題，可以保障。

i. 聚合數(shù)據(jù)完全純凈，因?yàn)槭侨斯?zhuān)門(mén)錄制的音頻嘛，后面只需要和這個(gè)聚合類(lèi)比對(duì)下是不是一個(gè)人就完了；
ii. 同時(shí)可以設(shè)計(jì)各種發(fā)音場(chǎng)景或者發(fā)音質(zhì)量校驗(yàn)標(biāo)準(zhǔn)（比如百度地圖錄制一個(gè)自己的發(fā)音人，就會(huì)校驗(yàn)音頻信噪比、音頻質(zhì)量、文本匹配度等等，總會(huì)提示音頻質(zhì)量不過(guò)關(guān)重錄），來(lái)讓訓(xùn)練數(shù)據(jù)的質(zhì)量變得無(wú)比高；

二、預(yù)訓(xùn)練帶來(lái)了什么變化

預(yù)訓(xùn)練首先是對(duì)于傳統(tǒng)的監(jiān)督學(xué)習(xí)的改變，Transformer這種有史以來(lái)最高效的特征抽取器的廣泛應(yīng)用，讓LM通過(guò)共享預(yù)訓(xùn)練模型的參數(shù)連接起各個(gè)任務(wù)，GPT/Bert的兩種研究范式也就就此確立的。對(duì)于之前主要廣泛受關(guān)注的是以Bert為代表的“雙向語(yǔ)言模型預(yù)訓(xùn)練+應(yīng)用Fine-tuning”模式，使得語(yǔ)言模型適應(yīng)下游的任務(wù)，基于預(yù)訓(xùn)練的思路，模型更大了，效果更好了，各種人工智能的最終任務(wù)，諸如完形填空、目標(biāo)檢測(cè)、關(guān)鍵要素抽取、機(jī)器翻譯、自動(dòng)摘要、圖像識(shí)別、物品推薦等等均取得了不同程度的提升。

從我的視角來(lái)看，我對(duì)BERT范式的模型理解是這樣的：

1）模型的通用性差：雖然預(yù)訓(xùn)練讓模型適應(yīng)下游任務(wù)，但是實(shí)際上應(yīng)用方面比較窄，這個(gè)可能和這種范式與人類(lèi)語(yǔ)言習(xí)慣的距離更遠(yuǎn)，不如生成范式接近人類(lèi)的表達(dá)，和Bert的訓(xùn)練數(shù)據(jù)也有相當(dāng)大的關(guān)系。

2）預(yù)訓(xùn)練的信息輸入量遠(yuǎn)高于以前的訓(xùn)練模式，通過(guò)大量提高輸入的方式必然會(huì)使得輸出有提升。因?yàn)槲依斫釧I算法本質(zhì)是壓縮輸入，已經(jīng)從輸入里總結(jié)歸納，并且在輸出端復(fù)現(xiàn)輸入，即使是生成式的算法也是這樣，例如大型語(yǔ)言模型加入COT可以使得結(jié)果的邏輯性和合理性更強(qiáng)。

3）數(shù)據(jù)和模型大小變化帶來(lái)的收益較低，原本效果上無(wú)法商用的一些方案和技術(shù)，依舊無(wú)法商用。這個(gè)可能和模型本身的規(guī)模沒(méi)有達(dá)到某個(gè)量級(jí)有關(guān)，因?yàn)橥瑯邮请p向的T5和BART在生成類(lèi)任務(wù)上也取得了不錯(cuò)的效果（BERT本身就不具備這種場(chǎng)景能力，不做談?wù)摚?/p>

4）模型量級(jí)在指數(shù)上升，且模型的規(guī)模擴(kuò)張速度已經(jīng)超過(guò)了摩爾定律的硬件性能提升速度，也就是說(shuō)就算拋開(kāi)效果提升了多少來(lái)看，成本的上升速度超過(guò)了收益，成本的上升速度有些過(guò)快了。關(guān)于這一點(diǎn)雖然openai和deepmind都分別測(cè)試了模型量級(jí)和數(shù)據(jù)量的縮放法則來(lái)說(shuō)明必要性，但是成本上升卻也是事實(shí)。

Pre-train, Prompt, and Predict: A Systematic Survey ofPrompting Methods in Natural Language Processing（https://arxiv.org/pdf/2107.13586.pdf）

這篇綜述文章很好的闡述了研究的范式發(fā)展思路，到GPT這一代的時(shí)候，Prompt方式已經(jīng)將任務(wù)調(diào)整到語(yǔ)言模型中進(jìn)行實(shí)現(xiàn)而不是讓語(yǔ)言模型適應(yīng)下游的任務(wù)，這種方式帶來(lái)了相當(dāng)多的變化。

三、大模型的AI設(shè)計(jì)方式變化

1. 大模型帶來(lái)的變化：普通人的AI設(shè)計(jì)時(shí)代

Prompt標(biāo)識(shí)的第三波大模型的變化（我并不喜歡稱(chēng)這種方式是自回歸的語(yǔ)言模型的時(shí)代，或者單向語(yǔ)言模型的時(shí)代，至于原因下面會(huì)提到），從結(jié)果上來(lái)看，我覺(jué)得最大的變化是理解成本和應(yīng)用價(jià)值都向C端的一般用戶(hù)逐漸靠攏。

過(guò)去的AI其實(shí)從理解成本上來(lái)看，普通用戶(hù)很難理解是怎么一回事，因?yàn)槿伺cAI無(wú)法把完整的交流都通過(guò)人類(lèi)可以理解的方式進(jìn)行。就這好比文藝復(fù)興的時(shí)代，宗教比科學(xué)一直以來(lái)都更加容易被人接受，就是因?yàn)樽诮痰恼Z(yǔ)言交流方式距離一般人的直覺(jué)更近，大家可以無(wú)需學(xué)習(xí)很多科學(xué)知識(shí)就可以對(duì)這件事進(jìn)行理解和探討，而現(xiàn)在相同的事情正在大模型上發(fā)生。

第二點(diǎn)就是應(yīng)用價(jià)值的變化，過(guò)去的AI實(shí)際上在To C的普通消費(fèi)者上一直比較難產(chǎn)生直接價(jià)值，這實(shí)際上是“交互”這種AI應(yīng)用場(chǎng)景的困境，實(shí)質(zhì)上“交互”本身一直都很難找到一個(gè)能直接產(chǎn)生價(jià)值的點(diǎn)，這也導(dǎo)致大量的To C的AI產(chǎn)品實(shí)際上的銷(xiāo)售模式很多都是依托供應(yīng)商分銷(xiāo)完成，這種模式實(shí)質(zhì)上很多廠商把貨物壓到分銷(xiāo)商手里，銷(xiāo)售環(huán)節(jié)就已經(jīng)算結(jié)束了，這里的具體原因我們不做深入探討。

但是大模型實(shí)際上改變了這個(gè)情況，從Chatgpt開(kāi)始，大量面向To C產(chǎn)生實(shí)際價(jià)值的產(chǎn)品需求被釋放了，對(duì)于大模型所有人都可以輕而易舉的想到幾個(gè)和自己有關(guān)的價(jià)值場(chǎng)景，可以說(shuō)To C的價(jià)值在大模型這里才真正被釋放了出來(lái)。

Prompt的方式，對(duì)于AI設(shè)計(jì)來(lái)說(shuō)，其結(jié)果就是帶來(lái)了各個(gè)維度的AI設(shè)計(jì)門(mén)檻的變化，以及理解成本的極大降低，大模型時(shí)代可能只要具備基本的邏輯學(xué)修養(yǎng)，就可以進(jìn)行AI產(chǎn)品設(shè)計(jì)，讓我不禁感覺(jué)“人人都是AI設(shè)計(jì)者”的時(shí)代可能近在眼前了。所有人都可以很直白的理解AI可以做什么的時(shí)候，各種有趣好玩的AI應(yīng)用涌現(xiàn)就近在眼前了。

為什么到了GPT的方式才讓我產(chǎn)生這個(gè)感覺(jué)，主要源自它帶來(lái)的一些人機(jī)交互方面的巨大變化。關(guān)于大模型技術(shù)國(guó)內(nèi)外論文已經(jīng)相當(dāng)多了，諸如RLHF、COT、Zero shot prompting等等，因?yàn)槲恼抡w整體更多分享個(gè)人見(jiàn)解，不是一篇技術(shù)分享文章，這些部分我只大概引用佐證說(shuō)明觀點(diǎn)，明細(xì)就壓縮掉了，如果不了解相關(guān)的一些背景信息，可以直接看Openai、Antropic、Google、Deepmind、Meta、國(guó)內(nèi)外知名大學(xué)和研究機(jī)構(gòu)的論文，或者國(guó)內(nèi)外大佬的解讀博客。每個(gè)部分的佐證我都有引用標(biāo)注，如果想要了解到技術(shù)細(xì)節(jié)還是建議自己勤動(dòng)手吧。

1）人機(jī)交互界面變得自然，貼近人類(lèi)的交互界面

大模型帶來(lái)的一個(gè)核心變化之一是，過(guò)去的人機(jī)交互，機(jī)器只能理解有限范式的指令，而大模型做到了統(tǒng)一范式：

在信息輸入時(shí)，統(tǒng)一了范式使得多種類(lèi)型的輸入都可以作為信息輸入AI（T5論文論證了這一點(diǎn)），這其實(shí)意味著我們可能不需要逐個(gè)類(lèi)型任務(wù)設(shè)計(jì)不同的AI，例如圖像和文本都可以統(tǒng)一形式輸入同一個(gè)AI，然而實(shí)際上語(yǔ)言模型確實(shí)可以把這些連續(xù)性信息都抽象成語(yǔ)言進(jìn)行理解；
因?yàn)閴嚎s了世界知識(shí)，使得AI具備了通用的理解能力，而不是僅僅理解定義的有限范式，這其實(shí)另一方面也代表了語(yǔ)言模型具備輸出多種范式的內(nèi)容潛力，事實(shí)上本文談打的另一種圖像類(lèi)大模型擴(kuò)散模型，我覺(jué)得最終會(huì)被語(yǔ)言模型所替代掉。

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer（https://arxiv.org/abs/1910.10683）

人機(jī)交互界面是一個(gè)泛指，以完成人機(jī)交互需要交互人具備的專(zhuān)業(yè)能力要求來(lái)看，可以劃分為三個(gè)階段，下圖是我用Dell-E生成的表達(dá)人機(jī)交互界面發(fā)展階段的示意圖，雖然我盡力調(diào)整了，但是圖片依舊有點(diǎn)文不切題，這個(gè)讓我更加確信了現(xiàn)在的圖像生成一定需要語(yǔ)言模型的必要性：

① 專(zhuān)業(yè)人士+有限集能力：可以類(lèi)比“遙控器+電視機(jī)”的模式。

這種模式可以看成是經(jīng)過(guò)了兩次編碼，一次是人把需求轉(zhuǎn)化成遙控器的按鍵指令的編碼，一次是遙控器把接收到的指令編碼成執(zhí)行指令給到電視機(jī)執(zhí)行，所以一般這種產(chǎn)品都是具有學(xué)習(xí)成本的，即使是移動(dòng)時(shí)代的app也可以理解成這種模式，既然有學(xué)習(xí)成本，就不是所有人都天然會(huì)使用的，這也是為什么老年人很難學(xué)會(huì)的原因。

② 普羅大眾+有限集能力：這時(shí)已經(jīng)可以把“遙控器”這一個(gè)環(huán)節(jié)的編碼載體去除了，變成了“自然人+電視機(jī)”的交互模式。

人已經(jīng)可以通過(guò)自然語(yǔ)言和設(shè)備進(jìn)行交互了，但是這并不是需求不需要進(jìn)行編碼了，只是因?yàn)樽匀徽Z(yǔ)言這種需求編碼方式，人人都掌握了所以學(xué)習(xí)成本消失了。關(guān)于人類(lèi)使用自然語(yǔ)言對(duì)本身需求進(jìn)行編碼的效率問(wèn)題，這是另一個(gè)話題了，留給以后有機(jī)會(huì)再談吧。

上面這種模式實(shí)際上就可以理解成過(guò)去的自然語(yǔ)言處理范式，雖然使用門(mén)檻被降的很低，但是是依靠預(yù)定義的有限范式支持的，這里面需要大量的設(shè)計(jì)和算法人工定義工作，可預(yù)期的也是支持的自然語(yǔ)言范圍很窄，經(jīng)常不理解，算法在有限預(yù)定義集合上做各種語(yǔ)義泛化工作，但是實(shí)際上還是在追求有限集合上的輸入復(fù)現(xiàn)。

這種方式預(yù)定義擴(kuò)展的范式越多，用戶(hù)用起來(lái)就覺(jué)得越自然，支持的說(shuō)法越多，所以在之前的人機(jī)交互設(shè)計(jì)中，大家普遍圍繞線上用戶(hù)交互失敗的query，不斷挖掘、不斷豐富和擴(kuò)展自己的范式，讓用戶(hù)用的更爽。

③ 普通大眾+通用能力：在這種模式下，大概可以理解成“電視機(jī)”本身也被一種萬(wàn)能工具替代了，大眾通過(guò)自然語(yǔ)言直接和需要的影片交互。

可以大致認(rèn)為這個(gè)時(shí)候用戶(hù)可以用自然語(yǔ)言發(fā)起各類(lèi)需求，而這些需求都可以被大模型編碼成執(zhí)行指令，直接給到資源方執(zhí)行。這也是大模型的重要的通用性的特性，我的理解是這個(gè)可以說(shuō)是數(shù)據(jù)帶來(lái)的，而不是AI本身的特性。關(guān)于這個(gè)特性在下面會(huì)談一下我對(duì)于這個(gè)“通用性”和“全知全能”之間的差距的理解。

④ 其實(shí)看擴(kuò)散模型的Playground也可以看出這種演化趨勢(shì)，Stable diffusion還需要具備一定的代碼能力才可以使用，到Dell-e和Midjourney已經(jīng)可以直接在網(wǎng)頁(yè)或者Discord上使用自然語(yǔ)言交互。

但是實(shí)際上，實(shí)現(xiàn)雖然Dell-e和Midjourney可以用自然語(yǔ)言交互，但是和普羅大眾的需求語(yǔ)言還是存在巨大差距，本質(zhì)上和Stable diffusion用機(jī)器代碼指令交互區(qū)別并不大，只是使用門(mén)檻降低了一些，本質(zhì)上還是需要以機(jī)器能夠理解的會(huì)話范式來(lái)說(shuō)話，例如下面是一個(gè)在Midjourney的Discord社區(qū)隨便翻了一個(gè)案例，專(zhuān)業(yè)語(yǔ)言的Prompt我是用GPT幫我寫(xiě)的。

Midjourney的Discord社區(qū)某個(gè)案例，文本我用翻譯軟件翻成中文了

交互界面的自然化，帶來(lái)的必然結(jié)果就是對(duì)使用人的專(zhuān)業(yè)技能要求少了，比如我們不需要會(huì)使用設(shè)計(jì)工具和代碼，就可以使用Midjourney，但是如果讓我們輸出專(zhuān)業(yè)的Prompt，就會(huì)需要一些專(zhuān)業(yè)知識(shí)。如果讓GPT來(lái)做專(zhuān)業(yè)語(yǔ)言prompt生成，也需要做到從設(shè)計(jì)語(yǔ)言層面做需求拆解，這其實(shí)依舊和普通人模糊不清的需求描述有差別。

這一部分的需求拆解工作是不能讓AI來(lái)執(zhí)行的，因?yàn)檫@件事沒(méi)有現(xiàn)有知識(shí)可以總結(jié)，而是需要基于已有的少量輸入，推理出遠(yuǎn)超輸入的大量輸出。大型語(yǔ)言模型可見(jiàn)的問(wèn)題是不具備基于已有推理未知的能力，給的結(jié)果更多可以理解為是AI從數(shù)據(jù)總結(jié)歸納的結(jié)果，而不是推理的結(jié)果，這種結(jié)果可想而知是接近千篇一律的。

所以其實(shí)自然度也是有限度的，至少各專(zhuān)業(yè)領(lǐng)域的需求拆解工作目前并不會(huì)被替代，其實(shí)抽象一下也就是說(shuō)，各個(gè)領(lǐng)域里面真正產(chǎn)生新信息的工作不可能被替代掉。

但是即使語(yǔ)言模型有能力邊界，其實(shí)這種程度的交互自然度已經(jīng)使得相當(dāng)多的專(zhuān)業(yè)性知識(shí)在實(shí)際使用中變得缺乏意義，但是我依舊認(rèn)為了解領(lǐng)域?qū)I(yè)知識(shí)的人才可以具備創(chuàng)造新信息的能力，不了解的人甚至不具備評(píng)價(jià)某一成果好壞的能力。

2）大模型的通用性，高成本領(lǐng)域定制方案的消失

過(guò)去的AI往往一種AI只能解決一種任務(wù)，這就使得大千世界里形形色色的行業(yè)和領(lǐng)域都需要各種算法能力定制，但是GPT的預(yù)訓(xùn)練使得大模型表現(xiàn)出了對(duì)于人類(lèi)語(yǔ)言的通用理解能力和推理能力，因此在各種領(lǐng)域都顯示一定的基礎(chǔ)理解力和應(yīng)用潛力。

加之低成本定制方案FLAN、P-tuning、Lora的應(yīng)用，微調(diào)的技術(shù)證明了可以用少量數(shù)據(jù)強(qiáng)化大模型的指定方向的效果,這意味著通用人工智能+低成本的定制，取代了過(guò)去逐個(gè)場(chǎng)景定制的高成本方案，可能一般用戶(hù)見(jiàn)的最多的就是基于Stable Diffusion微調(diào)的各種風(fēng)格的圖像生成模型：

① Lamda和Alpaca的相關(guān)研究證明了只需要幾萬(wàn)指定方向的高質(zhì)量數(shù)據(jù)微調(diào)就可把指定方向的效果拉升到可用水平，相比于天文數(shù)字的預(yù)訓(xùn)練來(lái)說(shuō)，這個(gè)量級(jí)的數(shù)據(jù)可以很快收集到。

這意味著具備了“一個(gè)通用大模型+低成本定制領(lǐng)域方案”的一套解決方案可以低成本，并且快速的實(shí)現(xiàn)基于通用大模型的各領(lǐng)域應(yīng)用定制工作。斯坦福的論文闡述這一項(xiàng)工作開(kāi)銷(xiāo)低于500美元，斯坦福使用的LLaMa模型較小，但是依舊有很強(qiáng)的參考意義。舉個(gè)例子，如果我需要把強(qiáng)化大模型的多樣性，我只需要幾萬(wàn)的Finetune或者P-tuning的多樣性數(shù)據(jù)集來(lái)調(diào)整即可。

Alpaca: A Strong, Replicable Instruction-Following Model（https://crfm.stanford.edu/2023/03/13/alpaca.html）

② Lora在NLP領(lǐng)域以及圖像領(lǐng)域Stable Diffusion的廣泛應(yīng)用，使得可以在不對(duì)大模型進(jìn)行有損調(diào)整的情況下，低成本的強(qiáng)化指定場(chǎng)景效果。從下圖可以看出，相比于Finetune需要調(diào)整的參數(shù)，Lora調(diào)整的參數(shù)規(guī)模和達(dá)到效果實(shí)在可觀，這意味著Lora的微調(diào)成本更低，成效更好。當(dāng)然Lora可能更加適合單任務(wù)或者單特性的強(qiáng)化，對(duì)于多任務(wù)或者模型整體的調(diào)整可能并不適合通過(guò)Lora解決。

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS（https://arxiv.org/pdf/2106.09685.pdf）

另一方面，大模型的通用性代表，即使無(wú)法收集到一些某些領(lǐng)域的數(shù)據(jù)，依靠大模型的通用能力+Prompt提示的方式，也可以實(shí)現(xiàn)在指定領(lǐng)域不錯(cuò)的效果，即使沒(méi)有在指定領(lǐng)域進(jìn)行過(guò)精調(diào)。

實(shí)際上，在實(shí)踐中也發(fā)現(xiàn)如果是通過(guò)Tuning的方式實(shí)現(xiàn)，一般精調(diào)的數(shù)據(jù)集并不宜過(guò)多，過(guò)多的數(shù)據(jù)集會(huì)導(dǎo)致大模型原本特性和能力效果出現(xiàn)下降，可能對(duì)話的相關(guān)性和多輪連續(xù)性都會(huì)受到很大的影響。所以目前似乎精簡(jiǎn)的高質(zhì)量集合是相對(duì)合理的，如何精簡(jiǎn)精調(diào)數(shù)據(jù)集本身又是一項(xiàng)充滿(mǎn)門(mén)道的事情。

大模型的通用性來(lái)源于對(duì)世界的壓縮，可以認(rèn)為大模型把整個(gè)人類(lèi)世界壓縮作為了輸入，因此大模型才可以做到在用戶(hù)僅僅給出很少量信息的問(wèn)題時(shí)，可以輸出遠(yuǎn)超過(guò)輸入端信息量的輸出。

在移動(dòng)互聯(lián)時(shí)代，大家還在講信息爆炸的影響，但是現(xiàn)在對(duì)于大模型來(lái)說(shuō)，數(shù)據(jù)渴求已經(jīng)是一個(gè)更普遍的現(xiàn)象。世界上的很多信息并不存在于互聯(lián)網(wǎng)上，因此即使把整個(gè)互聯(lián)網(wǎng)那個(gè)的信息輸入大模型，通用性依舊是有限的，這個(gè)其實(shí)就會(huì)需要能夠收集線下模態(tài)信息的模型出現(xiàn)。

從另一個(gè)維度講，即使現(xiàn)在模型的膨脹速度已經(jīng)超越了摩爾定律的硬件擴(kuò)張速度，大模型對(duì)于世界的壓縮效率也是很恐怖的，我并不知道這個(gè)會(huì)不會(huì)影響到信息論信息量計(jì)算公式的基本定理，但是只要大模型依舊按照統(tǒng)計(jì)的路線，信息論的基本原理始終是生效的。對(duì)于算法人員來(lái)說(shuō)，大模型的通用性意味著算法可能真的是在革自己的命，首先收到?jīng)_擊影響的可能是算法從業(yè)者。

但是其實(shí)上面說(shuō)的大模型的通用性，并不是真正可以實(shí)現(xiàn)多種現(xiàn)實(shí)任務(wù)的“多任務(wù)人工智能”，關(guān)于真正的多任務(wù)人工智能，目前依舊停留在學(xué)界的理論上，但是真正的通用AI我覺(jué)得還需要等待多任務(wù)的人工智能的進(jìn)步。

3）“效果上不可達(dá)”可能可以根本解決

Google的經(jīng)典論文闡述在模型參量達(dá)到13B（10^22）以后，大模型涌現(xiàn)出沒(méi)有定義過(guò)的新能力，這項(xiàng)新能力的效果，在參數(shù)量達(dá)到量級(jí)之后，很多原本效果接近于隨機(jī)的任務(wù)，效果突然出現(xiàn)大幅度的提升。

雖然一些論文闡述評(píng)估方法具有平滑性的問(wèn)題，但是效果出現(xiàn)了跨越式提升卻是事實(shí)。一個(gè)直觀的感覺(jué)就是，如果對(duì)比過(guò)GPT4和Chatgpt，或者更小的語(yǔ)言模型比如Alpaca，其實(shí)就會(huì)發(fā)現(xiàn)，小語(yǔ)言模型對(duì)于語(yǔ)言本身的理解更像是一種范式模仿，不具備語(yǔ)言的邏輯連續(xù)性和推理能力，即小語(yǔ)言模型其實(shí)沒(méi)有理解語(yǔ)言這件事本身，而GPT4已經(jīng)在逐漸逼近理解這件事，雖然它依舊存在很多問(wèn)題。

對(duì)于大語(yǔ)言模型來(lái)說(shuō)，因?yàn)閷?duì)于語(yǔ)言的理解更加高維和深層，從而出現(xiàn)了一些Emergent Abilities，原本效果上不可行的任務(wù)都變得可商用了，因?yàn)槲覀兛梢约南Ｍ诎殡S著訓(xùn)練數(shù)據(jù)規(guī)模和模型參量的提升，大模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到一些更深層的語(yǔ)言知識(shí)，transformer的中層和高層得到更充分的利用。這意味著設(shè)計(jì)需要的經(jīng)驗(yàn)和能力要求大幅降低了：

Emergent Abilities of Large Language Models（https://arxiv.org/abs/2206.07682）

① 在上文提到之前AI設(shè)計(jì)方式的例子中，由于一些子任務(wù)不可行而需要進(jìn)行復(fù)雜任務(wù)流程和子任務(wù)重新定義的設(shè)計(jì)不再需要了，設(shè)計(jì)可以被極大的簡(jiǎn)化。

② 原本需要資深人士經(jīng)驗(yàn)推斷才能判斷一項(xiàng)任務(wù)是否可行，或者效果能達(dá)到什么程度的經(jīng)驗(yàn)判斷變得意義較?。ɑ蛘呖赡茏兊脽o(wú)法評(píng)估，因?yàn)闊o(wú)法推斷模型擴(kuò)張到什么程度會(huì)引發(fā)能力涌現(xiàn)）?！炯夹g(shù)可達(dá)性】這個(gè)問(wèn)題原本是需要踩過(guò)很多坑，有大量子任務(wù)經(jīng)驗(yàn)，這類(lèi)資深的設(shè)計(jì)人員，可以讓公司在設(shè)計(jì)和驗(yàn)證方案階段的成本最小化，這一原本AI方案設(shè)計(jì)的巨大門(mén)檻，被基本消除了，各種方案都有可能在某個(gè)量級(jí)下能夠成立，可能真正的條條大路通羅馬了。

這其實(shí)引發(fā)我思考一個(gè)恐慌的問(wèn)題，就是AI是否擺脫了“設(shè)計(jì)者意志”，是否設(shè)計(jì)者都不再需要了。但是這件事即使我在Openai的Discord也較少看到討論（我發(fā)出的提問(wèn)也并沒(méi)有人回應(yīng)），就我的對(duì)于大語(yǔ)言模型的使用體會(huì)，結(jié)合個(gè)人理解以及和算法朋友的討論，我個(gè)人直觀上感覺(jué)Emergent abilities可能與兩種情況有關(guān)聯(lián)：

① 是和人工定義的原始子任務(wù)存在一些關(guān)聯(lián)的，可能語(yǔ)言模型學(xué)到了一些更高層次的潛在語(yǔ)言關(guān)聯(lián)，這個(gè)現(xiàn)象并沒(méi)有辦法在任意一個(gè)任務(wù)上就憑空出現(xiàn)。

② 因?yàn)槟Ｐ蛿?shù)據(jù)量和規(guī)模的擴(kuò)大，模型從語(yǔ)言本身學(xué)到了更深層的東西，把他們存儲(chǔ)在了transformer中。

下面有一個(gè)例子是我使用中發(fā)現(xiàn)的一種典型現(xiàn)象，如果GPT-4幫助你決策，在引導(dǎo)下GPT-4可以主動(dòng)詢(xún)問(wèn)一些做決策缺失的信息，并做到穩(wěn)定復(fù)現(xiàn)，但是Chatgpt即使給出Prompt也無(wú)法穩(wěn)定實(shí)現(xiàn)。這個(gè)應(yīng)該就是語(yǔ)言模型慢慢具備了“常識(shí)”，國(guó)內(nèi)很多復(fù)刻的大模型其實(shí)主要不足也就在這里。

但是“常識(shí)”其實(shí)我覺(jué)得是一個(gè)很抽象的詞匯，它可能包括了“歷史的沿襲”、“主體和主體屬性”、“主體間關(guān)系”等很多方面，這些問(wèn)題也放在下篇文章再討論吧。

③ 模型和數(shù)據(jù)量的擴(kuò)大，導(dǎo)致模型對(duì)于語(yǔ)言的表達(dá)理解更深了，同樣的一句話GPT4已經(jīng)都可以理解，Chatgpt則會(huì)給出完全不同的回應(yīng)，雖然每種回應(yīng)包含的信息量都有巨大差異，但是即使選擇信息量最小的一種提示方式，GPT4也可以立刻反應(yīng)過(guò)來(lái)，而這種非顯性的交流，更加接近真實(shí)場(chǎng)景中人的會(huì)話方式：

你沒(méi)有什么需要我提供的信息來(lái)提供具體建議嗎（反問(wèn)+質(zhì)疑+提示）
你沒(méi)有什么要問(wèn)我的嗎（反問(wèn)+質(zhì)疑）
你有什么要問(wèn)我的嘛（缺失提示信息，也沒(méi)有反問(wèn)和質(zhì)疑態(tài)度）

BIG-BENCH中有類(lèi)似的Sufficient Information測(cè)試任務(wù)集合（https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks/sufficient_information），但是我感覺(jué)big-bench上的測(cè)試集偏向于知識(shí)推理(e.g., How much water is in a full 4 inch tall cylindrical glass? Answer: what is the radius of the glass?).而不是一些基于社會(huì)運(yùn)行常識(shí)的一些推理，例如著裝需要依據(jù)不同的工作性質(zhì)、場(chǎng)合、性別、外貌特點(diǎn)以及個(gè)人希望他人對(duì)自己形成的社會(huì)認(rèn)知。

至少?gòu)奈規(guī)讉€(gè)月的使用體驗(yàn)中，我認(rèn)為AI依舊存在“設(shè)計(jì)者意志問(wèn)題”，甚至因?yàn)槲⒄{(diào)對(duì)于激發(fā)模型表現(xiàn)的巨大影響，以及預(yù)訓(xùn)練數(shù)據(jù)的范式對(duì)于模型語(yǔ)言理解傾向的巨大影響，設(shè)計(jì)者通過(guò)數(shù)據(jù)向語(yǔ)言模型施加的影響更大了。關(guān)于預(yù)訓(xùn)練范式如何影響語(yǔ)言模型的問(wèn)題下面會(huì)再另外談到。

4）很多中間子任務(wù)變得沒(méi)有意義

大模型導(dǎo)致很多的AI中間子任務(wù)不再具有意義，很多問(wèn)題可以端到端的直接解決，這不僅是很多AI的子任務(wù)失去了研究意義，很多業(yè)務(wù)子流程設(shè)計(jì)的時(shí)候也不再需要轉(zhuǎn)化成繁瑣的AI子任務(wù)，可能僅僅依靠基本的邏輯素養(yǎng)，只要制定出合理的任務(wù)路徑，就可以期待大模型可以端到端的直接解決此類(lèi)問(wèn)題。

舉個(gè)例子，假設(shè)我們想設(shè)計(jì)一個(gè)基于情感的聊天會(huì)話系統(tǒng)（先不考慮知識(shí)和常識(shí)怎么來(lái)的問(wèn)題），在以前會(huì)可能需要做如下的任務(wù)分解：

在上面的任務(wù)流程里，“會(huì)話歷史的理解與關(guān)鍵抽取”、“會(huì)話情景的綜合分析”、“主動(dòng)挑起話題的能力”、“話題主體的預(yù)測(cè)與選擇”、“風(fēng)格化”等等都需要單獨(dú)制定方案逐一解決。

這種思路在過(guò)往的AI設(shè)計(jì)中很常見(jiàn)，因?yàn)闊o(wú)法端到端直接輸出想要的結(jié)果，就把一個(gè)任務(wù)拆解細(xì)碎的小任務(wù)組合，最早的語(yǔ)音識(shí)別是將任務(wù)分解成識(shí)別音節(jié)、詞性、語(yǔ)法等小任務(wù)（即使現(xiàn)在語(yǔ)音識(shí)別分成聲學(xué)和語(yǔ)言?xún)蓚€(gè)維度，也是放在統(tǒng)一端到端模型了）。

而之前對(duì)于情感這件事，具體的AI子任務(wù)會(huì)有更加細(xì)碎的分解，例如之前小米對(duì)于情感對(duì)話這塊的實(shí)踐就是這樣的思路，把情感這件事拆分成“Exploration”、“Comforting”和“Action”三步來(lái)實(shí)現(xiàn)，并且借鑒了Maarten Sap 等人建構(gòu)“if-then”圖譜的思路。

MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation（https://arxiv.org/pdf/2203.13560.pdf）

ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning（https://arxiv.org/pdf/1811.00146v3.pdf）

而對(duì)于大模型來(lái)說(shuō)，我只需要定義好情感的精調(diào)數(shù)據(jù)應(yīng)該長(zhǎng)成什么樣子，就可以借助精調(diào)數(shù)據(jù)激發(fā)大模型的能力，端到端的實(shí)現(xiàn)情感會(huì)話。這樣的端到端設(shè)計(jì)方式直接導(dǎo)致了三個(gè)結(jié)果：

專(zhuān)業(yè)的子任務(wù)定義工作不需要了，設(shè)計(jì)者甚至不需要理解子任務(wù)是什么，人工智能存在哪些子任務(wù)這些基本知識(shí)，就可以上手做設(shè)計(jì)。
任務(wù)拆解和路徑拆解的工作變得非常簡(jiǎn)單，因?yàn)椴淮嬖谛Ч豢蛇_(dá)，并且問(wèn)題只需要端到端解決，看起來(lái)沒(méi)必要分析任務(wù)的構(gòu)成要素，拆解解決路徑了。甚至目標(biāo)本身可能就是任務(wù)，例如“我需要一種面向老年用戶(hù)情感陪伴的聊天系統(tǒng)”，可能直接就是這個(gè)目標(biāo)唯一也是不需要分解的任務(wù)。
數(shù)據(jù)的重要性變得比預(yù)訓(xùn)練時(shí)代還要重要，以前我們可以認(rèn)為要達(dá)到很好的效果，模型占20%，數(shù)據(jù)占80%，現(xiàn)在數(shù)據(jù)的比重再度提高了。這也導(dǎo)致了一個(gè)問(wèn)題，就是數(shù)據(jù)集定義和設(shè)計(jì)的怎么樣，就直接決定了最終效果。機(jī)器學(xué)習(xí)的名言“trash in，trash out”，可以說(shuō)在大模型中會(huì)得到極致的體現(xiàn)，大模型對(duì)于數(shù)據(jù)的敏感性比過(guò)去的模型都更高，3%的訓(xùn)練集噪音就可以直接毀掉整個(gè)系統(tǒng)，使系統(tǒng)變得根本無(wú)法使用，而在以前，這個(gè)噪音容忍度可能是5%或者更高。

看起來(lái)既不需要做路徑拆解也不需要做子任務(wù)定義了，但是我覺(jué)得其實(shí)這更加考驗(yàn)對(duì)于“情感”這件事的本質(zhì)理解了，畢竟定義出來(lái)數(shù)據(jù)集長(zhǎng)什么樣就直接影響了最終的輸出效果，“數(shù)據(jù)集應(yīng)該是什么樣的”這個(gè)問(wèn)題可能更考驗(yàn)對(duì)于社會(huì)學(xué)、腦科學(xué)、家國(guó)文化、心理等方面的理解，以及對(duì)于“會(huì)話”這件事的本質(zhì)理解。

5）大模型的應(yīng)用會(huì)有哪些問(wèn)題

打造一個(gè)大模型需要巨大的訓(xùn)練費(fèi)用和調(diào)用費(fèi)用，這一部分在很多大模型的工程復(fù)現(xiàn)文章中都有成本的詳細(xì)論證，就不做贅述。想談幾個(gè)被較少提及的應(yīng)用問(wèn)題，但是包括訓(xùn)練和調(diào)用成本在內(nèi)，這些問(wèn)題并不是無(wú)解的，只是需要行業(yè)內(nèi)共同大模型的健康發(fā)展去逐步解決。

① 成本問(wèn)題展望

A. 成本的擴(kuò)張

關(guān)于目前“AI模型規(guī)模的增長(zhǎng)速度超過(guò)了摩爾定律的硬件擴(kuò)展速度”各種論證和說(shuō)明有很多，但是當(dāng)下這個(gè)輿論風(fēng)向的話，可能Sam Altman的說(shuō)辭更有說(shuō)服力一些吧。眾所周知，AI的效果每提升一點(diǎn)，模型規(guī)模和需要的計(jì)算資源都是指數(shù)上升的，一定不止摩爾定律的兩倍這么多。當(dāng)然摩爾定律本質(zhì)上也是商業(yè)行為逆推整個(gè)行業(yè)技術(shù)改進(jìn)速度的案例，所以Sam Altman這個(gè)很有當(dāng)年英特爾和微軟那味。

另一件事是，目前互聯(lián)網(wǎng)上可得到和使用的數(shù)據(jù)，相比于目前模型消耗數(shù)據(jù)的速度已經(jīng)顯得有些不夠用了，尤其是信噪比低的高質(zhì)量數(shù)據(jù)可見(jiàn)的十分有限。這導(dǎo)致后面有可能需要從線下去收集數(shù)據(jù)進(jìn)行線上化，線下數(shù)據(jù)的線上化本身對(duì)于資源的消耗就可見(jiàn)的十分巨大。比如看看Palm-E消耗的資源量和達(dá)成的效果，就可以理解線下維度的數(shù)據(jù)收集有多么困難。

B. 成本下降的展望

算法優(yōu)化的本質(zhì)，我的理解是不斷的提高無(wú)損壓縮信息的壓縮比，因此可以以更小的資源消耗實(shí)現(xiàn)等同的效果本身就是算法的優(yōu)化目標(biāo)。

在模型規(guī)模指數(shù)級(jí)的提升背景下，OpenAI自2019年開(kāi)始，也提出了需要模型運(yùn)行效率的問(wèn)題。另一方面這個(gè)問(wèn)往往不至于算法本身，很多工程化的手段都可以在效果不損失的前提下，在很短的時(shí)間內(nèi)把計(jì)算消耗降低一到幾個(gè)數(shù)量級(jí)。GALM和HunggingGPT讓一部分專(zhuān)家系統(tǒng)起作用，而不是整個(gè)系統(tǒng)起作用也是一種思路。

Measuring the Algorithmic Efficiency of Neural Networks（https://cdn.openai.com/papers/ai_and_efficiency.pdf）

第二個(gè)有幫助的點(diǎn)是，可以通過(guò)增加訓(xùn)練數(shù)據(jù)量使同等規(guī)模大小下模型得到更充分的訓(xùn)練，這樣雖然對(duì)于一次性的訓(xùn)練成本有上升，但是在調(diào)用模型時(shí)候這種流動(dòng)成本可以降低。

雖然openai（Scaling Laws for Neural Language Models）和deepmind（Training Compute-Optimal Large Language Models）有通過(guò)實(shí)驗(yàn)給出最佳的模型規(guī)模和訓(xùn)練數(shù)據(jù)量匹配比例，但是不論如何訓(xùn)練數(shù)據(jù)量單獨(dú)擴(kuò)增對(duì)于充分訓(xùn)練之前的效果提升也有很大的幫助。另一方面，精調(diào)數(shù)據(jù)集對(duì)于效果幫助則更大，InstructGPT已經(jīng)證明經(jīng)過(guò)精調(diào)的小模型性能表現(xiàn)上甚至可以超過(guò)大模型。

目前的這種稀疏的大模型，在實(shí)際推理時(shí)，只有模型的一部分參數(shù)在起作用，通過(guò)進(jìn)一步理解大模型的作用原則，我覺(jué)得后面通過(guò)控制部分參數(shù)參與推理來(lái)實(shí)現(xiàn)成本的下降可能也是可行的。另一方面一個(gè)分發(fā)大模型+一堆專(zhuān)家小模型的MOE思路也可以大幅降低成本，例如GLam雖然參量是GPT3的七倍多，但是實(shí)際上成本卻比GPT3少得多。

AI設(shè)計(jì)變革——大模型的AI設(shè)計(jì)方法

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts（https://arxiv.org/pdf/2112.06905.pdf)

當(dāng)然這一部分是純粹的算法和工程問(wèn)題，我覺(jué)得了解可行性與方向即可，專(zhuān)業(yè)的問(wèn)題還是就留給專(zhuān)業(yè)的人解決。

② 合規(guī)和人機(jī)合作的定位

對(duì)于GPT來(lái)說(shuō)，本質(zhì)上生成內(nèi)容是不可控的，其實(shí)從微軟和Google在開(kāi)始推廣前，都開(kāi)掉了自己的合規(guī)團(tuán)隊(duì)就可以看出一些端倪。在我理解里處理方式無(wú)非是幾種：

引導(dǎo)：通過(guò)引入人工反饋強(qiáng)化和精調(diào)來(lái)對(duì)大模型的輸出方向進(jìn)行引導(dǎo)；
后處理：也就是加一些規(guī)則處理做敏感過(guò)濾，這個(gè)最容易想到，大模型廠商也都有做；
清洗數(shù)據(jù)：這個(gè)是最徹底的，但是也是最難的，因?yàn)橐环矫媲逑磾?shù)據(jù)或者強(qiáng)制給模型預(yù)設(shè)某些條件，會(huì)導(dǎo)致模型的性能下降；另一方面精調(diào)數(shù)據(jù)的清洗還好，預(yù)訓(xùn)練數(shù)據(jù)的清洗是一個(gè)世界難題，雖然有研究證明似乎可以精準(zhǔn)定位到發(fā)生問(wèn)題的訓(xùn)練數(shù)據(jù)和模型局部，但是路還是很遠(yuǎn)。

綜合來(lái)看，對(duì)于GPT來(lái)說(shuō)，人機(jī)合作的設(shè)計(jì)路線更加合理。過(guò)去的人機(jī)交互意志有一個(gè)比較尷尬的實(shí)際問(wèn)題，就是to c其實(shí)很難產(chǎn)生直接價(jià)值，to b雖然產(chǎn)生了價(jià)值，但是往往敏感性很高，可控性這個(gè)可能是過(guò)去Bert路線這么受追捧的原因。

但是對(duì)于可控性較差的GPT而言，可能AI作為輔助角色，引入人工干預(yù)可能是未來(lái)的長(zhǎng)期路線。類(lèi)似自動(dòng)駕駛形態(tài)的人機(jī)合作，最有可能成為大模型的產(chǎn)品定位終局，比如大模型可能不能直接成為家教，但是可以成為家長(zhǎng)教育孩子最好的輔助工具。

這件事如果從系統(tǒng)論思考，結(jié)論也是類(lèi)似的。從系統(tǒng)論來(lái)說(shuō)，一個(gè)不受管理的封閉系統(tǒng)始終是熵增趨勢(shì)，會(huì)逐步走向無(wú)序與混亂，而解決熵增的方式就是與外部系統(tǒng)建立關(guān)系，引入負(fù)熵，讓系統(tǒng)無(wú)序性降低。

對(duì)于人這個(gè)系統(tǒng)來(lái)說(shuō)，與其他外部系統(tǒng)之間的負(fù)熵引入尤其重要，如果AI本身都是讓人在自己的圈子里去活動(dòng)，那只會(huì)讓整個(gè)系統(tǒng)越來(lái)越無(wú)序和混亂，所以AI如何成為輔助鏈接外部負(fù)熵的輔助，從系統(tǒng)論視角來(lái)看這個(gè)可能是終局，其實(shí)這種熵增變化對(duì)于AI本身也是一樣。

③國(guó)產(chǎn)化的精度問(wèn)題

受美國(guó)制裁影響對(duì)于大模型本身其實(shí)影響很大，且不說(shuō)先進(jìn)軟件技術(shù)都在美國(guó)的問(wèn)題，國(guó)產(chǎn)化的計(jì)算芯片和NVIDIA的差距就會(huì)對(duì)大模型輸出效果造成巨大影響。就像上面提到的，GPT這種生成式模型對(duì)于每一個(gè)字預(yù)測(cè)的誤差都很敏感，因?yàn)檎`差會(huì)被逐級(jí)放大，在過(guò)去幾億參數(shù)較小規(guī)模的生成模型上經(jīng)驗(yàn)來(lái)看，國(guó)產(chǎn)化因?yàn)楦↑c(diǎn)計(jì)算的小數(shù)點(diǎn)位后2-3位開(kāi)始和NVIDIA產(chǎn)生偏差，同樣的模型在國(guó)產(chǎn)化芯片和NVIDIA上一致性只有差不多50%-60%，而這種問(wèn)題在大模型上會(huì)被放大的更加劇烈。

目前國(guó)內(nèi)還有一些渠道獲取A100或者A800，但后續(xù)感覺(jué)還是要看國(guó)產(chǎn)化芯片計(jì)算精度，畢竟對(duì)生成式模型來(lái)說(shuō)，不光是計(jì)算資源是否足夠問(wèn)題，計(jì)算精度一位的差異都會(huì)在逐漸生成的過(guò)程中被無(wú)限的放大。

④ 數(shù)據(jù)渴求與模型規(guī)模

對(duì)于大模型來(lái)說(shuō)，模型規(guī)模越大，訓(xùn)練數(shù)據(jù)越多，模型效果就越好。那么對(duì)于大模型來(lái)說(shuō)，目前的數(shù)據(jù)是否夠用呢？會(huì)不會(huì)出現(xiàn)現(xiàn)實(shí)世界中的數(shù)據(jù)被消耗完，從而達(dá)到AI能力極限的問(wèn)題呢？

這個(gè)問(wèn)題此前的估算模型是OpenAI輸出的訓(xùn)練數(shù)據(jù)和模型規(guī)模的配比，但是按照Deepmind團(tuán)隊(duì)最新的Chinchilla的評(píng)估提出了修正，假設(shè)按照Chinchilla測(cè)算，模型規(guī)模和訓(xùn)練數(shù)據(jù)應(yīng)該1:1同比擴(kuò)大，可以說(shuō)目前的大模型都屬于訓(xùn)練數(shù)據(jù)量不足，訓(xùn)練不充分的階段。比如以GPT3的1750億參數(shù)規(guī)模，至少訓(xùn)練數(shù)據(jù)應(yīng)該擴(kuò)充11倍以上。下表是論文給出的三種不同評(píng)估方法的一些評(píng)估值。

Training Compute-Optimal Large Language Models（https://arxiv.org/pdf/2203.15556.pdf）

按照充分訓(xùn)練發(fā)揮模型最大效能的方式來(lái)進(jìn)行，現(xiàn)行的數(shù)據(jù)量足夠支撐模型訓(xùn)練嗎？會(huì)不會(huì)出現(xiàn)數(shù)據(jù)不足的情況？我覺(jué)得這個(gè)問(wèn)題有這么幾點(diǎn)已知信息：

按照Chinchilla的評(píng)估，我大概認(rèn)為要實(shí)現(xiàn)ChatGPT或者GPT4的效果，可能需要的模型參數(shù)量要小得多，但是訓(xùn)練數(shù)據(jù)量和訓(xùn)練充分度要大得多，可能從效率上來(lái)說(shuō)合理的事更小的模型更多的數(shù)據(jù)。而目前的ChatGPT或者GPT4其實(shí)效果已經(jīng)相當(dāng)可觀了。
GPT4的訓(xùn)練集tokens數(shù)量比ChatGPT可能要大至少一個(gè)數(shù)量級(jí)，但是從之前的45T清洗到1T的訓(xùn)練集來(lái)看，依舊是英文互聯(lián)網(wǎng)的一部分。目前的英文互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)集依舊有相當(dāng)多可以被用于拓展訓(xùn)練集。
中文互聯(lián)網(wǎng)上，我記得在哪里看到過(guò)有人清洗了幾百T的數(shù)據(jù)集只得到了幾T的訓(xùn)練集。從常識(shí)來(lái)看，中文互聯(lián)網(wǎng)的高質(zhì)量數(shù)據(jù)集也很少，因?yàn)榛ヂ?lián)網(wǎng)發(fā)展時(shí)間短，很遺憾像百科、各類(lèi)圖書(shū)的電子化、國(guó)際高質(zhì)量學(xué)術(shù)論文平臺(tái)和雜志，這種高質(zhì)量信息建設(shè)的工作在中文互聯(lián)網(wǎng)很少。各類(lèi)線下高質(zhì)量數(shù)據(jù)的線上化程度也不高，所以中文的高質(zhì)量數(shù)據(jù)集是否足夠這個(gè)問(wèn)題我覺(jué)得是有很大疑問(wèn)的。

2. 設(shè)計(jì)方式的變化：設(shè)計(jì)者最好的時(shí)代來(lái)了

目前的大模型來(lái)看，雖然可以替代一些專(zhuān)業(yè)工作者的工作，甚至于算法研究本身的工作，但是依舊擺脫不了設(shè)計(jì)者意志問(wèn)題。因?yàn)榇竽Ｐ驮谛Ч虾屯ㄓ眯陨系木薮筮M(jìn)步，突破了之前的AI能力邊界，各行各業(yè)被能力邊界壓制的需求都涌現(xiàn)了出來(lái)。所以確實(shí)可以說(shuō)，設(shè)計(jì)者大展拳腳的時(shí)代來(lái)了。

① 大模型時(shí)代AI設(shè)計(jì)：端到端設(shè)計(jì)方式&極端的數(shù)據(jù)主導(dǎo)權(quán)

大模型對(duì)于效果的突破進(jìn)展，以及其設(shè)計(jì)思路，沖擊性的改變了三件事情：

依靠語(yǔ)言模型一種技術(shù)解決了過(guò)去需要多重任務(wù)、級(jí)聯(lián)設(shè)計(jì)才能解決的問(wèn)題；
LLM同時(shí)解決了多種任務(wù)，雖然達(dá)不到真正的多任務(wù)人工智能水準(zhǔn)，但是可解決的問(wèn)題范圍已經(jīng)相當(dāng)大（關(guān)于這一點(diǎn)后面講大模型應(yīng)用會(huì)談到）；
數(shù)據(jù)變得無(wú)比重要，無(wú)論是“數(shù)據(jù)集的質(zhì)量”還是“覆蓋到世界知識(shí)的可收集維度”都分別在【精調(diào)】和【預(yù)訓(xùn)練】?jī)蓚€(gè)階段產(chǎn)生巨大的影響，其影響已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了模型本身。

這三種變化組合起來(lái)，對(duì)于設(shè)計(jì)的沖擊是巨大的。這意味著以下幾點(diǎn)的巨大變化：

A. 設(shè)計(jì)需要的門(mén)檻大幅下降了，因?yàn)榇竽Ｐ偷木薮笸ㄓ眯?，子任?wù)定義這個(gè)環(huán)節(jié)，在大部分的AI應(yīng)用場(chǎng)景中都不需要了，設(shè)計(jì)者只需要定義最終任務(wù)，而最終任務(wù)即使對(duì)于入門(mén)者理解它也是很容易的。當(dāng)然如果你是大模型的設(shè)計(jì)者本身，而不是行業(yè)應(yīng)用，這件事可能依舊是需要的。
B. 設(shè)計(jì)再也不需要考慮效果可達(dá)性問(wèn)題，因?yàn)閷?duì)于大模型來(lái)說(shuō)，可以抱有一個(gè)美好的預(yù)期，在達(dá)到某一個(gè)體量（參量+數(shù)據(jù)）之后，新定義的任務(wù)效果就可以涌現(xiàn)出來(lái)，大幅提升到可用水準(zhǔn)，（當(dāng)然這件事是否在任何任務(wù)上都可以成立，還是需要技術(shù)的驗(yàn)證）
C. 大模型本身甚至讓目標(biāo)和路徑邏輯拆解變得及其簡(jiǎn)單了，很多復(fù)雜的拆解設(shè)計(jì)工作也都可以簡(jiǎn)化到端到端的方案實(shí)現(xiàn)。這不僅意味著需要拆解和定義的任務(wù)數(shù)量的減少，甚至大多數(shù)時(shí)候的任務(wù)都可以簡(jiǎn)化成一個(gè)最終任務(wù)，而調(diào)整它的方法就是調(diào)整和定義它的訓(xùn)練集。
D. 數(shù)據(jù)的重要性變得無(wú)比高，什么樣的訓(xùn)練數(shù)據(jù)才是我們需要的數(shù)據(jù)，因?yàn)樗嘘P(guān)于需求場(chǎng)景分析，各種維度需要達(dá)成的目標(biāo)期待，全部都靠一份數(shù)據(jù)集實(shí)現(xiàn)，如何定義這份數(shù)據(jù)集應(yīng)該長(zhǎng)成什么樣子，就顯得十分的重要。如前文所述，這份數(shù)據(jù)集不能以數(shù)量來(lái)取代質(zhì)量，因?yàn)檫^(guò)大的精調(diào)數(shù)據(jù)集會(huì)讓大模型原本的一些能力消失，會(huì)話本身都會(huì)成為問(wèn)題，這顯然得不償失。
E. 從什么地方拿到高質(zhì)量的數(shù)據(jù)，如何清洗數(shù)據(jù)，如何構(gòu)造一條持續(xù)的數(shù)據(jù)收集通道。這些在原本AI框架中相對(duì)不重要的事情，如今變得極其的重要。相應(yīng)的，這方面的數(shù)據(jù)供應(yīng)行業(yè)也會(huì)早就巨大的機(jī)會(huì)，誰(shuí)能以更低廉成本提供高質(zhì)量數(shù)據(jù)，誰(shuí)能把線下各種非結(jié)構(gòu)化的數(shù)據(jù)抽象到線上數(shù)據(jù)集中，這些數(shù)據(jù)市場(chǎng)的機(jī)會(huì)會(huì)變得無(wú)比大。

舉個(gè)例子，上文我提到了參考關(guān)于小米的情感會(huì)話的一些實(shí)現(xiàn)方案，如果這件事放在大模型來(lái)實(shí)現(xiàn)，其設(shè)計(jì)就可以簡(jiǎn)單的多，只需要定義“精調(diào)數(shù)據(jù)集+prompt”長(zhǎng)成什么樣子，就可以激發(fā)模型這塊的能力。

但是實(shí)際上對(duì)于設(shè)計(jì)者來(lái)說(shuō)思考工作量可能變化不大，因?yàn)橹豢恳环菥{(diào)數(shù)據(jù)集就決定最終效果，更加考驗(yàn)設(shè)計(jì)者對(duì)于【會(huì)話情感】這件事思考是否透徹，這些思考會(huì)反映在數(shù)據(jù)集范式的定義上，一旦數(shù)據(jù)集定義的不好，最終也就無(wú)法實(shí)現(xiàn)出好的效果。

如果我們實(shí)際把兩種設(shè)計(jì)流拉出來(lái)，比較一下兩種設(shè)計(jì)流的門(mén)檻，可以發(fā)現(xiàn)：

A. 過(guò)去的專(zhuān)業(yè)設(shè)計(jì)流：從【需求分析階段】到【開(kāi)發(fā)實(shí)現(xiàn)】，還有一個(gè)專(zhuān)業(yè)的【系統(tǒng)設(shè)計(jì)】階段，這個(gè)階段需要大量的專(zhuān)業(yè)知識(shí)和閱讀量，這就讓設(shè)計(jì)本身變得門(mén)檻極高。

藍(lán)色部分需要對(duì)于技術(shù)的研讀和經(jīng)驗(yàn)才能進(jìn)行。當(dāng)然說(shuō)實(shí)話，過(guò)去見(jiàn)過(guò)的AI設(shè)計(jì)按照這個(gè)流程能完成設(shè)計(jì)的很少，很多設(shè)計(jì)的工作被忽略了?？梢钥闯鲞^(guò)去的設(shè)計(jì)流程里面對(duì)于需求的分析把握以及對(duì)于技術(shù)的了解度都占了比較大的比重。

過(guò)去的方式有一項(xiàng)的工作就是任務(wù)分解，在各種邊界條件限制下無(wú)耐不斷進(jìn)行任務(wù)和子任務(wù)的分解和重新定義，而就像前面所說(shuō)的，每一次分解都代表了更多誤差的引入，和對(duì)設(shè)計(jì)者更高門(mén)檻的要求。

B. 大模型的端到端設(shè)計(jì)流：從【需求分析階段】到【開(kāi)發(fā)實(shí)現(xiàn)】也可以直接的解決了，因?yàn)闆](méi)有必要在拆分復(fù)雜的子任務(wù)，甚至對(duì)于【需求分析】本身，要求的邏輯能力也變?nèi)趿?，更多的是要求模仿目?biāo)場(chǎng)景的范式被定義出來(lái)。

對(duì)于大模型設(shè)計(jì)來(lái)說(shuō)，大概可以認(rèn)為只要對(duì)于場(chǎng)景和問(wèn)題的分析做的足夠好，問(wèn)題的拆解可能可以直接作為系統(tǒng)的任務(wù)定義，問(wèn)題解決的邏輯路徑可能可以直接作為任務(wù)系統(tǒng)的任務(wù)流程。而唯一有可能需要的只是需要大概了解下有哪些經(jīng)典設(shè)計(jì)模式。

這個(gè)工作流其實(shí)已經(jīng)相當(dāng)接近普通To C或者To B產(chǎn)品的設(shè)計(jì)流了，在這種設(shè)計(jì)模式下，任務(wù)基本是可以端到端的直接解決，無(wú)需進(jìn)行分解，或者說(shuō)分解和定義的工作實(shí)際是在定義訓(xùn)練數(shù)據(jù)，而不是定義系統(tǒng)組成。

設(shè)計(jì)門(mén)檻的變化，最有可能的結(jié)果就是，人人都是AI設(shè)計(jì)者的時(shí)代可能要到了。

但是其實(shí)要我說(shuō)的話，雖然門(mén)檻變低了，但是這件事的分析難度可能沒(méi)有太多變化，在過(guò)去實(shí)踐中我們發(fā)現(xiàn)在定義數(shù)據(jù)集的時(shí)候，能否注意到目標(biāo)場(chǎng)景的大量隱前提，例如會(huì)話中的主客體關(guān)系和主導(dǎo)角色，這些都構(gòu)成了影響prompt和訓(xùn)練效果的關(guān)鍵。只會(huì)粗淺的收集數(shù)據(jù)和范式模仿，可能永遠(yuǎn)也達(dá)不到目標(biāo)效果，至少在我們的大模型實(shí)踐中是這樣的。

② 大模型時(shí)代設(shè)計(jì)者角色：大模型設(shè)計(jì)者&行業(yè)應(yīng)用設(shè)計(jì)者

大模型極大的降低了設(shè)計(jì)門(mén)檻，讓很多不具備專(zhuān)業(yè)知識(shí)的普通人可以加入AI設(shè)計(jì)行列。同時(shí)因?yàn)榇竽Ｐ偷耐ㄓ眯?低成本微調(diào)的特性，導(dǎo)致大部分的應(yīng)用場(chǎng)景都可以基于大模型的微調(diào)開(kāi)展，無(wú)需再像之前一樣逐個(gè)場(chǎng)景定制AI，因此設(shè)計(jì)門(mén)檻也出現(xiàn)了分化：

A. 基礎(chǔ)大模型的設(shè)計(jì)者：這類(lèi)設(shè)計(jì)者更加需要關(guān)心一些世界抽象問(wèn)題，基于不同的抽象維度的深度理解去設(shè)計(jì)基礎(chǔ)的大模型。同時(shí)這類(lèi)工作依舊需要一定的算法理解，但是理解深度要求就淺的多了，因?yàn)閷?shí)際操作定義可能是最終任務(wù)，而不是子任務(wù)，這讓理解成本降低了很多。

B. 行業(yè)應(yīng)用的設(shè)計(jì)者：這類(lèi)設(shè)計(jì)者則更加關(guān)心具體應(yīng)用場(chǎng)景的問(wèn)題，對(duì)于應(yīng)用場(chǎng)景的理解力，應(yīng)用場(chǎng)景的會(huì)話范式和成立前提，決定了該如何定義應(yīng)用場(chǎng)景的精調(diào)數(shù)據(jù)集，這項(xiàng)工作雖然門(mén)檻基本沒(méi)有了，但是因?yàn)閹缀踔挥袛?shù)據(jù)一個(gè)影響因素了，數(shù)據(jù)集定義質(zhì)量就是關(guān)鍵，而數(shù)據(jù)集定義取決于對(duì)于場(chǎng)景的理解深刻度有多少。

a. 大模型方案的設(shè)計(jì)

就像上面提到的，大模型讓一些中間狀態(tài)的子任務(wù)，詞性、句法、依存、指代消解、語(yǔ)義角色標(biāo)注等等都不再具有研究意義，甚至NER、Embedding這類(lèi)在大部分通用場(chǎng)景下也不需要單獨(dú)再做為一個(gè)獨(dú)立子任務(wù)進(jìn)行方案和研究設(shè)計(jì)。但是目前其實(shí)針對(duì)大模型的效果測(cè)試集中，其實(shí)依舊可以看見(jiàn)這些子任務(wù)的身影。

BIG BENCH測(cè)試集中的傳統(tǒng)NLP任務(wù)（https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/keywords_to_tasks.md）

研究可以更多的關(guān)注于最終任務(wù)，諸如完形填空、機(jī)器翻譯、摘要總結(jié)、情感分類(lèi)等等。這種最終任務(wù)的理解成本就變低了很多，比如即使沒(méi)有閱讀過(guò)NLP領(lǐng)域的研究，也大概都可以通過(guò)簡(jiǎn)短的介紹大概知道上面哪些最終任務(wù)是什么意思，以及大概的應(yīng)用場(chǎng)景是什么。

中間任務(wù)的消失，和任務(wù)解決越來(lái)越端到端化的趨勢(shì)，讓大模型設(shè)計(jì)者更加需要具有對(duì)于一些技術(shù)外的抽象現(xiàn)實(shí)任務(wù)本質(zhì)的深刻理解。例如對(duì)于Chatgpt的場(chǎng)景來(lái)說(shuō)，對(duì)于【什么是會(huì)話】【什么是寫(xiě)作】的理解，就是對(duì)于這種任務(wù)場(chǎng)景的洞察力的體現(xiàn)。

作為設(shè)計(jì)者來(lái)說(shuō)，算法知識(shí)需要了解的更少了，怎么能夠從對(duì)于世界的理解中抽象出一些基本任務(wù)，并且對(duì)這些人類(lèi)社會(huì)的現(xiàn)象本質(zhì)具備深刻洞察和理解，成為設(shè)計(jì)者的關(guān)鍵素質(zhì)。而這些端到端的設(shè)計(jì)最開(kāi)始的應(yīng)用，就是取代了算法人員自己，因?yàn)榭雌饋?lái)需要具備算法素養(yǎng)的場(chǎng)景越來(lái)越少了，算法確實(shí)是自己革掉了自己的命。

對(duì)于目前的人機(jī)交互形式來(lái)看，我覺(jué)得可以抽象成“寫(xiě)作”和“會(huì)話”兩種本質(zhì)任務(wù)，關(guān)于總結(jié)、范式轉(zhuǎn)換類(lèi)的工作可以理解成是一種寫(xiě)作，關(guān)于知識(shí)、交互、情感類(lèi)的工作可以理解成是一種會(huì)話。

在22年的虛擬人交互實(shí)踐過(guò)程中，我注意到一些跨學(xué)科的應(yīng)用，對(duì)于研究這類(lèi)抽象事物的本質(zhì)尤其重要。例如【小說(shuō)寫(xiě)作】【動(dòng)畫(huà)設(shè)計(jì)】這兩個(gè)行業(yè)的知識(shí)對(duì)于“會(huì)話”和“人機(jī)交互”產(chǎn)生了很大的幫助，《生命的幻想》《經(jīng)典人物原型45種》《情節(jié)與人物》等等其他領(lǐng)域書(shū)籍，以及《艾迪芬奇的記憶》這款游戲，這些從其他領(lǐng)域借鑒的方法論和設(shè)計(jì)指南起到了很大的幫助。同時(shí)對(duì)于一些腦科學(xué)、生物學(xué)等跨學(xué)科知識(shí)，也都成為了重要的設(shè)計(jì)基礎(chǔ)，原本打算整理下時(shí)間經(jīng)驗(yàn)，但是文章寫(xiě)寫(xiě)停停，終于還是沒(méi)寫(xiě)完。

今年大模型導(dǎo)致AI同行交流都越來(lái)越變的閉塞，而大模型的想象空間又讓我明顯感覺(jué)到和行內(nèi)人士，及各行人士交流的重要性，因此打算開(kāi)始有計(jì)劃做一些分享和交流，下期打算就拿出虛擬人這塊的事情和大家談?wù)勱P(guān)于“會(huì)話”和“寫(xiě)作”兩個(gè)話題的理解，這篇就不做詳細(xì)闡述。

b. 行業(yè)AI應(yīng)用設(shè)計(jì)

大模型的微調(diào)技術(shù)證明，大模型可以以很少的訓(xùn)練數(shù)據(jù)量實(shí)現(xiàn)一種全新的目標(biāo)場(chǎng)景拓展應(yīng)用，或者針對(duì)性的提高模型某一方面的特性表現(xiàn)，典型的例如：

模型特性：例如提高對(duì)話的自然度，提高會(huì)話的趣味性，或者形成一種全新的會(huì)話人設(shè)。
應(yīng)用場(chǎng)景：AI法律顧問(wèn)，AI家庭教師，汽車(chē)管家，家庭管家等等。

這一點(diǎn)我覺(jué)得是AI最大的機(jī)會(huì)，人人都可以在自己行業(yè)找到AI應(yīng)用場(chǎng)景，而這個(gè)應(yīng)用的設(shè)計(jì)門(mén)檻又被無(wú)限的下降，成本也被降低到了個(gè)人即可使用的程度，這一切都預(yù)示著大量的從未涉足過(guò)AI行業(yè)的設(shè)計(jì)者的出現(xiàn)，以及大量具有創(chuàng)造性的新場(chǎng)景的涌現(xiàn)，這是一個(gè)長(zhǎng)期機(jī)會(huì)窗口的開(kāi)始。

而我理解這并不代表大模型時(shí)代資深者就不再存在，機(jī)會(huì)可能在于可以提出比別人用更少的參數(shù)量，更少的數(shù)據(jù)量可以達(dá)到等價(jià)效果的方案。這可能是AI行業(yè)成熟期的開(kāi)始，更高的效率更高的利潤(rùn)，成熟期市場(chǎng)的標(biāo)志會(huì)逐漸成為方案設(shè)計(jì)的核心。

商業(yè)世界里，能夠壓低生產(chǎn)成本本身就是公司一個(gè)過(guò)硬的核心能力，能以50%的成本實(shí)現(xiàn)其他公司100%的等同效果，這就意味著可以以0.7倍的成本價(jià)，出讓20%-30%的利潤(rùn)，逼迫能力不足的競(jìng)爭(zhēng)對(duì)手退出。我個(gè)人覺(jué)得對(duì)于行內(nèi)人來(lái)說(shuō)，最怕的就是演變成幾年前CV算法四小龍同質(zhì)化競(jìng)爭(zhēng)，一堆廠家建一個(gè)算法池，客戶(hù)豪氣的講“想用哪家的隨便用”這種格局。

③ 邁向搶奪定價(jià)權(quán)的時(shí)代

商業(yè)里有一句經(jīng)典的話，“沒(méi)有核心能力的企業(yè)，消費(fèi)者會(huì)掌握定價(jià)權(quán)”。舉個(gè)不太恰當(dāng)?shù)睦樱@句話的典型行業(yè)可以看手機(jī)市場(chǎng)。雷軍自己都曾經(jīng)表達(dá)過(guò)，小米手機(jī)賣(mài)多少錢(qián)取決于消費(fèi)者愿意出多少錢(qián)，和手機(jī)制造成本是多少錢(qián)沒(méi)有關(guān)系。因此小米把尋找消費(fèi)者可接受的最合理價(jià)位作為售價(jià)，然后通過(guò)規(guī)模效應(yīng)把成本壓到售價(jià)以下，這種變化也是行業(yè)從紅利走向成熟期的標(biāo)志。

對(duì)于AI行業(yè)來(lái)說(shuō)，也是同樣，所有參與者都希望把自己高昂的技術(shù)成本轉(zhuǎn)換成公司的核心能力，也就是希望企業(yè)本身能夠掌握定價(jià)權(quán)。

而對(duì)于AI企業(yè)來(lái)說(shuō)，資深設(shè)計(jì)者掌握的高效設(shè)計(jì)模式?jīng)Q定了企業(yè)可以以更低的成本實(shí)現(xiàn)更好的代差級(jí)效果。

當(dāng)然這里面還有誰(shuí)能掌握更加核心和不公開(kāi)的低噪音數(shù)據(jù)的問(wèn)題，但是這些都是企業(yè)為了掌握定價(jià)權(quán)的動(dòng)作。這里面對(duì)于掌握高效收集清洗數(shù)據(jù)，高效設(shè)計(jì)模式的資深設(shè)計(jì)者來(lái)說(shuō)，機(jī)會(huì)也是變得更多了，更多的初級(jí)人員的加入并不意味著資深者的出局。

從目前大模型之后行業(yè)趨勢(shì)來(lái)看，大家慢慢的都開(kāi)始做CloseAI了，從論文到使用的數(shù)據(jù)集，都不再像以前一樣完全開(kāi)源供大家使用，甚至于很多的大模型連一個(gè)playground都沒(méi)有。大模型對(duì)于數(shù)據(jù)質(zhì)量更加嚴(yán)重改的依賴(lài)，導(dǎo)致大家會(huì)盡一切可能保護(hù)自己真正核心的數(shù)據(jù)資產(chǎn)。

④ 理解大模型的應(yīng)用與方向

A. 理解大模型應(yīng)用場(chǎng)景

目前最主要的大模型可以歸結(jié)為語(yǔ)言模型（應(yīng)用包括語(yǔ)音識(shí)別、多模態(tài)識(shí)別、蛋白質(zhì)序列預(yù)測(cè)、電路設(shè)計(jì)、代碼撰寫(xiě)、PPT生成等等）、擴(kuò)散模型（圖片生成、3D自動(dòng)建模等等）以及兩者的聯(lián)合使用（視頻生成）。

擴(kuò)散模型本質(zhì)我理解是一種消噪過(guò)程，我理解一些可以抽象成噪音消除預(yù)測(cè)的場(chǎng)景就可能是擴(kuò)散模型未來(lái)的場(chǎng)景，這些場(chǎng)景是獨(dú)立的，不要求上下文相關(guān)性的，簡(jiǎn)單說(shuō)就是內(nèi)部不要求邏輯合理這種要素存在，單純的復(fù)現(xiàn)輸入，因此像藝術(shù)類(lèi)的工作，諸如建模、畫(huà)圖等就可以用這個(gè)實(shí)現(xiàn)。但是藝術(shù)設(shè)計(jì)的前向工作，比如靈感產(chǎn)生、設(shè)計(jì)理念、前期設(shè)定等等前期工作，其實(shí)沒(méi)有辦法解決。
而語(yǔ)言模型側(cè)重于連續(xù)序列的預(yù)測(cè)，側(cè)重上下文的關(guān)聯(lián)性，從人類(lèi)社會(huì)的視角來(lái)看，這個(gè)的應(yīng)用前景明顯更加廣闊，所以很多人談起大模型就談到Chatgpt，做個(gè)不恰當(dāng)?shù)谋扔?，這個(gè)相當(dāng)于在嘗試解決解決人類(lèi)大腦可以解決的問(wèn)題。為什么說(shuō)是不恰當(dāng)?shù)谋扔鳎驗(yàn)檎Z(yǔ)言模型本質(zhì)上來(lái)說(shuō)，其實(shí)沒(méi)法辦法像大腦一樣推理思考，更多是在對(duì)輸入進(jìn)行歸納、總結(jié)和壓縮，使輸出看起來(lái)符合邏輯性。
其實(shí)綜合上面來(lái)看，很容易想到的就是擴(kuò)散模型看起來(lái)偏重輸出表現(xiàn)層的東西，語(yǔ)言模型看起來(lái)強(qiáng)在邏輯性，兩個(gè)組合不就可以輸出需要邏輯性表現(xiàn)的東西，用LLM理解語(yǔ)義和動(dòng)作序列，用擴(kuò)散模型生成每一幀的序列，例如視頻、3D動(dòng)作等等。這方面確實(shí)有研究，例如CogVideo、Imagen等等。
也有很多研究諸如斯坦福的《Diffusion-LM Improves Controllable Text Generation》或者關(guān)于應(yīng)用擴(kuò)散過(guò)程做Masked Language Model的研究，就是用擴(kuò)散過(guò)程做語(yǔ)言模型，因?yàn)檎Z(yǔ)言模型的Masked再預(yù)測(cè)的過(guò)程確實(shí)可以看作是一種消噪過(guò)程，甚至自監(jiān)督學(xué)習(xí)本身就可以理解成是對(duì)query的一種帶噪重構(gòu)，所以最終兩者會(huì)不會(huì)殊途同歸這個(gè)還是留給專(zhuān)業(yè)算法去研究吧。

從替代人類(lèi)工作的視角來(lái)看，我的理解和吳軍老師對(duì)于大模型的解釋類(lèi)似，大模型尤其是熱炒的大型語(yǔ)言模型，并不會(huì)替代信息創(chuàng)造者的工作，更多是替代了不做信息創(chuàng)造僅僅做信息加工和傳遞的工作。以使用人使用交互工具需要的能力來(lái)看，可以從兩類(lèi)人來(lái)看待這件事，一類(lèi)是知識(shí)或者信息的生產(chǎn)者，一類(lèi)是知識(shí)或者信息的消費(fèi)者。

⑤ 對(duì)生產(chǎn)者來(lái)說(shuō)，大模型是一種絕對(duì)的效率工具

我的理解是，對(duì)于世界運(yùn)行的本質(zhì)任務(wù)抽象度越高的大模型，未來(lái)的應(yīng)用前景也就愈加廣闊。例如語(yǔ)言模型之所以應(yīng)用場(chǎng)景比擴(kuò)散模型要廣闊得多，影響力也大得多，原因在于語(yǔ)言本身相比于圖像就是一種高度抽象的世界概括方式，因此語(yǔ)言模型也可以視作對(duì)于人類(lèi)社會(huì)中其中一個(gè)維度的高度抽象。”圖像、視頻、文本、音樂(lè)、生物結(jié)構(gòu)等等”一系列均有上下文序列強(qiáng)關(guān)聯(lián)的事務(wù)，均可以被抽象地視為“語(yǔ)言”的一種范式。

未來(lái)是否會(huì)有一個(gè)終極抽象的大模型能夠真正實(shí)現(xiàn)“通用的多任務(wù)人工智能”這個(gè)我不知道，但是至少?gòu)母鱾€(gè)人類(lèi)社會(huì)的抽象維度一定都會(huì)誕生出大模型，如果不是單純的比拼垂類(lèi)任務(wù)精度，而是比拼通用性的覆蓋廣度，那么抽象度低的大模型一定會(huì)被抽象度更高的大模型替代掉。

實(shí)際上我覺(jué)得垂類(lèi)任務(wù)的精度問(wèn)題也可以通過(guò)擴(kuò)展模型和數(shù)據(jù)量，或者指望“能力涌現(xiàn)”解決這個(gè)問(wèn)題，比如擴(kuò)散模型我覺(jué)得其實(shí)有可能會(huì)被語(yǔ)言模型替代掉，因?yàn)檎Z(yǔ)言模型在設(shè)計(jì)這件事上甚至可以做的更好。

A. 擴(kuò)散模型之于創(chuàng)作

其實(shí)很好理解，相當(dāng)于把設(shè)計(jì)者從工具使用里解放出來(lái)，充分發(fā)揮設(shè)計(jì)本身的能力和對(duì)成果的鑒賞修正力，典型設(shè)計(jì)的例子如《一拳超人》，ONE老師做構(gòu)思和設(shè)定，村田雄介做原畫(huà)，這樣爆品漫畫(huà)就產(chǎn)生了?？梢哉f(shuō)擴(kuò)散模型可以發(fā)揮ONE老師這類(lèi)信息生產(chǎn)者的創(chuàng)作潛力，而且效率相比于村田老師更高。

設(shè)計(jì)這件事的工具，因?yàn)槿藱C(jī)交互工具自然度的進(jìn)化，使用門(mén)檻被降低了，從圖像擴(kuò)撒模型的演進(jìn)過(guò)程也可以看出這一點(diǎn)，stable diffusion需要具備一定的代碼能力，而到了midjourney和dell-e，已經(jīng)可以通過(guò)可以專(zhuān)業(yè)人士的自然語(yǔ)言交互直接使用了。但是我覺(jué)得對(duì)于資深專(zhuān)業(yè)者來(lái)說(shuō)，并不構(gòu)成問(wèn)題：

1業(yè)知識(shí)最根本的，我認(rèn)為是策劃能力，并不是產(chǎn)品策劃，技術(shù)架構(gòu)策劃，藝術(shù)設(shè)計(jì)策劃、科研的策劃都屬于這類(lèi)工作。這件事本質(zhì)上是需要利用及其有限的輸入信息，利用邏輯推演或者跨學(xué)科關(guān)聯(lián)知識(shí)創(chuàng)造更多的輸出信息量，而這件事本身是違反信息論原理的，因此大模型其實(shí)永遠(yuǎn)也無(wú)法實(shí)現(xiàn)這類(lèi)工作。
對(duì)于工具而言，使用成本的降低是必然的演進(jìn)趨勢(shì)。需要門(mén)檻的專(zhuān)業(yè)工具本身就會(huì)慢慢被無(wú)成本的工具替代。而這種替代正是可以把專(zhuān)業(yè)人士從繁重的工具使用中解放，釋放專(zhuān)業(yè)人士策劃創(chuàng)造信息能力。

擴(kuò)散模型可以說(shuō)在圖形、圖像、視頻、音樂(lè)這類(lèi)專(zhuān)業(yè)領(lǐng)域，都可以用于生成然后用其他模型指導(dǎo)連續(xù)性，也可以多種語(yǔ)言模型聯(lián)合使用，例如如下的輸出方式，Socratic Models 研究了多種這種大模型組合使用，或者外掛其他工具的場(chǎng)景和案例，這個(gè)其實(shí)很容易想到，就不贅述了，可以自己去看：

Socratic Models: Composing Zero-ShotMultimodal Reasoning with Language

這個(gè)可以說(shuō)是目前最高效的工具了。雖然之前火爆的主要是圖像的擴(kuò)散模型，但是未來(lái)像各種模式的富媒體生成應(yīng)該都可以沿用擴(kuò)散模型的思路實(shí)現(xiàn)。但是我的直觀感覺(jué)是擴(kuò)散模型的抽象度其實(shí)并不夠高。

相比語(yǔ)言模型，擴(kuò)散模型更像是從信息的各種形式中歸納出來(lái)的一種范式。雖然自從電視出現(xiàn)后，圖像信息承載了人類(lèi)社會(huì)83%的信息量，聲音信息承載了11%的信息量，但是這種直接歸納得到的范式，我覺(jué)得抽象效率并不夠高，很有可能未來(lái)會(huì)被其他更加通用高效的工具所替代掉。

B. 語(yǔ)言模型之于序列預(yù)測(cè)

目前國(guó)內(nèi)外看到的大模型的各種應(yīng)用，還屬于比較基本的能力復(fù)現(xiàn)使用，但是即使是這樣，大模型已經(jīng)在相當(dāng)大的范圍內(nèi)可以得到應(yīng)用。大模型的主要能力可以抽象到四個(gè)方面：

a. 范式轉(zhuǎn)換能力：相同類(lèi)型的信息從一種范式轉(zhuǎn)換為另一種范式，其信息量進(jìn)行了一定的壓縮，例如：

給出一段詳細(xì)的文字描述，將其轉(zhuǎn)換為圖片或者視頻輸出；
語(yǔ)音識(shí)別和語(yǔ)音合成，其實(shí)可以算作語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音的范式轉(zhuǎn)換；
給出詳細(xì)的需求描述讓AI轉(zhuǎn)換成代碼；
給予明確詳細(xì)的指令和情景分析，讓機(jī)器人執(zhí)行動(dòng)作；
文字和圖像排版；
……

b. 明確范式的內(nèi)容輸出：給出簡(jiǎn)短的信息，要求LLM填充更多的信息量輸出，因?yàn)樾畔⒘吭黾訉?shí)際上不符合信息論原理，所以這種輸出的信息本質(zhì)上來(lái)源于預(yù)訓(xùn)練的數(shù)據(jù)中，所以這種應(yīng)用會(huì)有兩個(gè)局限：

預(yù)訓(xùn)練沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)，LLM沒(méi)法給出很好的效果，甚至可能輸出都是“幻覺(jué)”，因?yàn)長(zhǎng)LM往往預(yù)訓(xùn)練數(shù)據(jù)很多，可以做這樣的實(shí)驗(yàn)，如果你給LLM一些反人類(lèi)對(duì)話習(xí)慣的會(huì)話方式，比如每句話都要強(qiáng)調(diào)一下相同的內(nèi)容和前提，就會(huì)發(fā)現(xiàn)LLM在會(huì)話過(guò)程中越來(lái)越不像人的會(huì)話，甚至可能會(huì)話都不通順；
對(duì)于具有明確且固定的范式可以輸出的很好，例如工作周報(bào)、健身計(jì)劃、季度財(cái)報(bào)、非業(yè)務(wù)代碼、甚至學(xué)術(shù)論文等等，但是對(duì)于不固定的范式就很難可以輸出質(zhì)量很好，例如讓LLM模擬某個(gè)人的寫(xiě)作風(fēng)格很容易，但是讓LLM自己寫(xiě)出自己獨(dú)特的文采和風(fēng)格的文章，質(zhì)量就停留在中學(xué)生水準(zhǔn)，差強(qiáng)人意。

綜合以上的應(yīng)用局限，可以比較好的應(yīng)用這種能力的場(chǎng)景也大概可以想得到了。例如如果讓LLM寫(xiě)一些能力代碼或者單元測(cè)試，LLM可以很好給出，但是如果讓LLM寫(xiě)業(yè)務(wù)代碼實(shí)際上沒(méi)法輸出，因?yàn)闃I(yè)務(wù)代碼里往往蘊(yùn)含了相當(dāng)多的研發(fā)自己對(duì)于需求的解讀和信息豐富。

c. 總結(jié)歸納的能力：從大量信息中，總結(jié)提煉出關(guān)鍵的信息，這個(gè)能力實(shí)際上可以解決信息過(guò)多的情況下，人工不足以進(jìn)行全部客觀的分析解讀的問(wèn)題。這一方面其實(shí)如果結(jié)合得當(dāng)?shù)闹R(shí)更新注入方案，行業(yè)應(yīng)用場(chǎng)景會(huì)相當(dāng)廣闊，當(dāng)然目前主流的知識(shí)注入方式還是外掛單獨(dú)的小模型或者檢索的方式給大模型注入知識(shí)，然后要求大模型基于外掛的知識(shí)進(jìn)行輸出信息的改寫(xiě)：

收集大量信息總結(jié)提煉，但是不輸出新的信息的新聞稿撰寫(xiě)；
上市公司的財(cái)報(bào)客觀解讀，這些需要客觀性，規(guī)避偏見(jiàn)和虛假的東西LLM甚至比人做得好；
某一市場(chǎng)狀況的總結(jié)分析和解讀；
大規(guī)模的綜合數(shù)據(jù)分析和解讀；
知識(shí)總結(jié)和摘要提煉，可以用于教育行業(yè)；
……

d. 連續(xù)序列推理預(yù)測(cè)：對(duì)于可以抽象成具有連續(xù)規(guī)律序列的事物，都是利用LLM能力的最好的場(chǎng)景，這種能力其實(shí)最接近LLM能力生效的本質(zhì)，其限制也很明顯，就是不具有規(guī)律性或者信息稀疏的事物上，這種能力并不生效，所以這種能力的本質(zhì)在于事物本身是否可以看做具有連續(xù)規(guī)律性。這種能力經(jīng)常被應(yīng)用于需要天文數(shù)字的計(jì)算量或者人工實(shí)驗(yàn)量才能解決或者得出結(jié)論的問(wèn)題。

人類(lèi)語(yǔ)言、語(yǔ)音、歌曲、影視等具有連續(xù)規(guī)律的事物；
蛋白質(zhì)設(shè)計(jì)、芯片電路設(shè)計(jì)、路線規(guī)劃等等具有連續(xù)規(guī)律性，或者可以看做具有規(guī)律性的事物；
科研實(shí)驗(yàn)試錯(cuò)的最好助手，例如藥物分子設(shè)計(jì)，大規(guī)模轉(zhuǎn)基因?qū)嶒?yàn)等等各種科研實(shí)驗(yàn)領(lǐng)域上；
Dota、麻將、紙牌等等策略取決于連續(xù)上個(gè)動(dòng)作和下個(gè)動(dòng)作的游戲AI；（OpenAI早期用強(qiáng)化學(xué)習(xí)做過(guò)一個(gè)Dota對(duì)戰(zhàn)機(jī)器人，我覺(jué)得現(xiàn)在其實(shí)可以考慮用LLM做一個(gè)更強(qiáng)的）
植物生長(zhǎng)情況預(yù)測(cè)，環(huán)境變化預(yù)測(cè)等等放大到大范圍上的預(yù)測(cè)；
當(dāng)然以上都是開(kāi)腦洞的應(yīng)用，模擬人類(lèi)說(shuō)話和寫(xiě)作本身其實(shí)就可以看做連續(xù)預(yù)測(cè)；
…….

當(dāng)然即使是科研領(lǐng)域，也有大模型解決不了的領(lǐng)域，例如考古或者天文學(xué)，都屬于可觀測(cè)數(shù)據(jù)極其有限的領(lǐng)域。例如天文學(xué)因?yàn)闆](méi)有足夠數(shù)量樣本驗(yàn)證定義是特例誤差，還是統(tǒng)計(jì)標(biāo)準(zhǔn)，其實(shí)是依靠構(gòu)建出大量的定理，依靠關(guān)聯(lián)定理數(shù)量的多少來(lái)決定哪些定理是科學(xué)的，從而在極少的幾個(gè)觀測(cè)實(shí)體上驗(yàn)證假設(shè)。

對(duì)于參與以統(tǒng)計(jì)學(xué)為科學(xué)基地的AI行業(yè)的我個(gè)人來(lái)說(shuō)，這種少樣本的科學(xué)方法論，拓寬了個(gè)人看待世界的方式的另一種維度。

這四個(gè)方面的能力并不是只能單獨(dú)使用，可以同時(shí)應(yīng)用產(chǎn)生在一種應(yīng)用中，例如指定“給我蛋糕食譜并且配上每個(gè)環(huán)節(jié)的操作示意圖”這種需求就會(huì)應(yīng)用到多種能力。

其實(shí)理解了上面的大模型的能力，對(duì)于大模型能做什么不能做什么就有一些邊界預(yù)期，目前的LLM遠(yuǎn)不是通用人工智能，甚至不是真正的多任務(wù)人工智能，但是其應(yīng)用場(chǎng)景也絕對(duì)不止目前大家簡(jiǎn)單應(yīng)用的一點(diǎn)能力復(fù)用，所有符合上述抽象邏輯的問(wèn)題和問(wèn)題組合，理論上都可以通過(guò)LLM來(lái)解決。

相比于擴(kuò)散模型，語(yǔ)言模型更貼近人類(lèi)社會(huì)一種連續(xù)性維度的抽象理解，因此其掀起的熱炒也遠(yuǎn)比擴(kuò)散模型高得多。目前的語(yǔ)言模型我認(rèn)為主要抽象了兩種本質(zhì)范式，已替代了過(guò)去零零碎碎的各種場(chǎng)景定制范式：

1. “會(huì)話”：類(lèi)比人類(lèi)社會(huì)中的各種交流形式，不論是一對(duì)多的大眾傳媒，還是一對(duì)一的社交活動(dòng)都在會(huì)話的場(chǎng)景可以得到體現(xiàn)，而會(huì)話的核心場(chǎng)景就是信息量不產(chǎn)生在一方，總有一個(gè)相互的信息交互過(guò)程，這代表了有很多隱含的社會(huì)約定俗成的規(guī)則在“會(huì)話”范式中。

我認(rèn)為可能“協(xié)作”更像是這種范式的終極形態(tài)，交互雙方相互填補(bǔ)信息空缺，綜合輸出一份共創(chuàng)結(jié)果。模型規(guī)模的擴(kuò)大，對(duì)于語(yǔ)言深層的理解逐步在強(qiáng)化，但是至少?gòu)哪壳皩?duì)于GPT4的使用過(guò)程可以發(fā)現(xiàn)，其實(shí)目前的GPT4還沒(méi)有辦法完全自主的理解這種范式。

什么是語(yǔ)言中更高更深層的東西，對(duì)于會(huì)話來(lái)說(shuō)，就目前的一些實(shí)踐經(jīng)驗(yàn)來(lái)看，我覺(jué)得其實(shí)這個(gè)問(wèn)題可以分為兩部分：

1.會(huì)話成立的前提：這一點(diǎn)很容易被忽視，我發(fā)現(xiàn)對(duì)于GPT來(lái)說(shuō)如果不給它指明，GPT本身也不會(huì)關(guān)注這個(gè)問(wèn)題。例如【會(huì)話的主客體關(guān)系】【會(huì)話主導(dǎo)角色】【誰(shuí)在填充信息量】【做出評(píng)價(jià)與總結(jié)】等等。這一部分的信息必須在few shot或者后續(xù)糾錯(cuò)中補(bǔ)充給gpt，gpt才能理解，或者以精調(diào)的方式激發(fā)這方面的能力表現(xiàn)。從這個(gè)意義上來(lái)說(shuō)，可以再次證明大模型對(duì)于設(shè)計(jì)者意志的依賴(lài)。

2.語(yǔ)言文本中蘊(yùn)含的深層信息，大概語(yǔ)言模型的發(fā)展也是按照這種方式，從最開(kāi)始的形式（詞性、句法、成分）走向含義（語(yǔ)義），到現(xiàn)在的會(huì)話情感，對(duì)于會(huì)話中的顯性情感GPT已經(jīng)可以完全理解，但是對(duì)于一些隱性情感及回應(yīng)的情感態(tài)度選擇，這塊語(yǔ)言模型的潛力還有待被進(jìn)一步挖掘。

關(guān)于“對(duì)話”和“寫(xiě)作”本質(zhì)我的理解打算在下一篇關(guān)于虛擬人的大模型實(shí)踐里詳細(xì)分享一下，這里就不細(xì)談了。

或者我讓大模型理解一下更抽象的內(nèi)容，比如什么叫做“協(xié)作”。也可以發(fā)現(xiàn)大模型其實(shí)完全不理解這件事，只是在語(yǔ)言層面模仿的比較順暢，關(guān)于協(xié)作的本質(zhì)大模型完全不理解，給出的只是浮于表面的人類(lèi)行為模仿，以及語(yǔ)言順暢度的潤(rùn)色。其實(shí)這個(gè)也可以看出設(shè)計(jì)者并沒(méi)有為大模型定義這種任務(wù)和能力，有可能會(huì)是未來(lái)大模型下一代大迭代的方向。

下面是我讓GPT4模擬一下協(xié)作流程，GPT4給出的，可以看出各參與成員之間其實(shí)完全沒(méi)有發(fā)生信息量的交互行為以及共創(chuàng)產(chǎn)生新信息量的行為，有的只是一種已有信息的不斷傳遞、總結(jié)和形式轉(zhuǎn)化（這個(gè)過(guò)程我覺(jué)得其實(shí)也可以說(shuō)是是語(yǔ)言模型的本質(zhì)）。后面我又嘗試讓GPT4做了各種方向的調(diào)整和prompt，但是目前的GPT4始終無(wú)法理解什么是協(xié)作。

2. “寫(xiě)作”：或者說(shuō)“類(lèi)寫(xiě)作”的創(chuàng)作工作范式，我覺(jué)得用與發(fā)散思維對(duì)立的演繹思維來(lái)歸納這種范式并不是很全面。因?yàn)橹灰巧弦粋€(gè)元素和下一個(gè)元素之間存在某種關(guān)聯(lián)性，基于此將輸入的大量信息作總結(jié)，或者在某些少量信息提示下，進(jìn)行大段信息的輸出，都可以歸入這種范式。我覺(jué)得這種范式大致歸納為：

預(yù)輸入信息：AAAABBCCCDDEEFFFFFGGGGG…..
信息總結(jié)：ABCDEFG..
提問(wèn)：給一個(gè)符合某種邊界條件的序列組合
輸出：AYHCNHNFKEHZCDSE…

關(guān)于這種范式最近看到一篇闡述如何強(qiáng)化LLM的推理和決策能力的論文覺(jué)得思路和我很像，都是理解人類(lèi)處理這類(lèi)范式事情的本質(zhì)會(huì)有哪些前提和邏輯過(guò)程，然后把它應(yīng)用到LLM中。

作者提出了一個(gè)REACT方法，發(fā)現(xiàn)人在執(zhí)行任務(wù)過(guò)程中，每?jī)蓚€(gè)子動(dòng)作之間其實(shí)會(huì)穿插一段推理和思考，重新掌握下目前的情況，如下圖右邊部分就是這種思路的應(yīng)用，相比于左邊的COT方法的幻覺(jué)，REACT方法可以正確得出結(jié)論。雖然右側(cè)的執(zhí)行動(dòng)作看起來(lái)像是一個(gè)全部用窮舉法解決問(wèn)題的小孩子，但是我覺(jué)得這個(gè)思考方向是正確的。

REAC T: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS（https://arxiv.org/pdf/2210.03629.pdf）

所以我覺(jué)得類(lèi)比人類(lèi)社會(huì)，對(duì)創(chuàng)造類(lèi)工作流程的模仿更適合這種范式。但是只是模仿不創(chuàng)造新信息的價(jià)值是什么呢？我認(rèn)為是可以讓機(jī)器無(wú)限次的不斷模擬試錯(cuò)過(guò)程，把人類(lèi)創(chuàng)作的試錯(cuò)成本降到最低。這個(gè)其實(shí)就已經(jīng)在很多領(lǐng)域可以極大的降低人力投入，把以前因?yàn)槿肆ν度脒^(guò)多導(dǎo)致不可能的工作開(kāi)展下去，例如復(fù)雜蛋白質(zhì)的設(shè)計(jì)就屬于這類(lèi)工作范疇。

“科研試錯(cuò)工作（實(shí)驗(yàn)試錯(cuò)、結(jié)構(gòu)設(shè)計(jì)、甚至公式推導(dǎo)）”
“設(shè)計(jì)試錯(cuò)工具（工程結(jié)構(gòu)、電子電路）”
“日常模板化工作的模仿（郵件、財(cái)報(bào)、新聞、論文等等）”

這里模擬試錯(cuò)的效率就是算法模型設(shè)計(jì)的效率。但是始終AI還是模仿流程，沒(méi)法真正的做創(chuàng)作，因?yàn)榫科涓荆Z(yǔ)言模型還是在做復(fù)述而不是創(chuàng)作。如果我們可以把全世界做信息創(chuàng)造者創(chuàng)造信息的輸入給到模型，可以實(shí)現(xiàn)創(chuàng)作嗎，我覺(jué)得這個(gè)可以替代掉重復(fù)性信息創(chuàng)造的工作，讓創(chuàng)造者更加關(guān)注于創(chuàng)造新的信息。

那么對(duì)LLM來(lái)說(shuō)，有哪些是能力邊界之外的呢？

1. 非連續(xù)性場(chǎng)景：對(duì)于人類(lèi)社會(huì)來(lái)說(shuō)，有相當(dāng)大量的場(chǎng)景實(shí)際上是非連續(xù)的，這也是為什么說(shuō)LLM無(wú)法解決創(chuàng)作性問(wèn)題的一個(gè)原因，例如我們可以發(fā)現(xiàn)LLM可以寫(xiě)論文，但是創(chuàng)作一個(gè)笑話卻很困難，因?yàn)樾υ捦欠沁B續(xù)性的，雖然笑話也具有一定的固定范式，但是LLM往往只能模仿這些范式：

2. 需要全局視角或者審視全局上下文情況的場(chǎng)景：因?yàn)镚PT是單向語(yǔ)言模型，這意味著當(dāng)GPT輸出內(nèi)容的時(shí)候，實(shí)際上無(wú)法像人一樣，對(duì)已經(jīng)輸出的內(nèi)容進(jìn)行修正。

例如人可以在推理過(guò)程中，發(fā)現(xiàn)上文矛盾的地方，涂改修正推理路徑，但是對(duì)于GPT來(lái)說(shuō)只能硬著頭皮繼續(xù)解釋錯(cuò)誤，【幻覺(jué)】的出現(xiàn)我覺(jué)得和這個(gè)有脫不開(kāi)的關(guān)系，有可能對(duì)于需要全局視野的事實(shí)，大家最后依舊會(huì)用到雙向語(yǔ)言模型的技術(shù)，因?yàn)殡p向意味著可以檢查和修正上下文，只是可能不是Bert那種判別式模型的形式，可能是類(lèi)似過(guò)往的XLNET的雙向自回歸的思路開(kāi)展，例如T5就是一種雙向的語(yǔ)言模型，當(dāng)然這個(gè)問(wèn)題還是期待算法大佬的實(shí)踐與思考分享。

3. 引用微軟GPT4的報(bào)告內(nèi)容做個(gè)結(jié)語(yǔ)：適用于LLM的例子包括寫(xiě)摘要、回答事實(shí)性問(wèn)題、根據(jù)給定的韻律方案創(chuàng)作詩(shī)歌或解決遵循標(biāo)準(zhǔn)過(guò)程的數(shù)學(xué)問(wèn)題。而對(duì)于不連續(xù)任務(wù)的例子包括解決需要公式的新穎或創(chuàng)造性應(yīng)用的數(shù)學(xué)問(wèn)題，編寫(xiě)笑話或謎語(yǔ)，提出科學(xué)假設(shè)或哲學(xué)論點(diǎn)，或創(chuàng)建新的寫(xiě)作流派或風(fēng)格。（Sparks of Artifificial General Intelligence: Early experiments with GPT-4）

AI行業(yè)和一般的行業(yè)有一個(gè)巨大差異，在于真正理解AI和應(yīng)用范圍的人很少，客戶(hù)一般情況下更是只了解一些具體應(yīng)用的案例，這就導(dǎo)致AI行業(yè)找應(yīng)用場(chǎng)景一直處于拿著錘子找釘子的狀態(tài)。

一般AI行業(yè)的設(shè)計(jì)者都是先設(shè)想會(huì)有很多人在某某方向有很多應(yīng)用場(chǎng)景，或者自己找一些側(cè)面佐證數(shù)據(jù)，或者找?guī)讉€(gè)關(guān)系好的客戶(hù)聊一下意向，本質(zhì)上其實(shí)是設(shè)計(jì)者先按自己的想法設(shè)計(jì)，然后再給市場(chǎng)推廣告訴市場(chǎng)有什么什么用，期望市場(chǎng)接受。而一般其他行業(yè)客戶(hù)對(duì)于自己的需求本身有比較明確的分析和預(yù)期，可以有相對(duì)明確的訴求，這一點(diǎn)和AI行業(yè)很不一樣，AI行業(yè)客戶(hù)往往等著設(shè)計(jì)者去介紹有什么樣的特性，然后判斷下自己是否可以用得上。

在大模型時(shí)代，這個(gè)問(wèn)題得到緩解了嗎？我覺(jué)得其實(shí)并沒(méi)有，雖然大模型的火爆讓很多人知道了如何簡(jiǎn)單的應(yīng)用AI，但是如果要能夠自主分析需求，依舊需要研讀較多的基本資料，這一點(diǎn)可以說(shuō)是AI的需求分析門(mén)檻了，即使在大模型時(shí)代，如果知識(shí)照貓畫(huà)虎的看看新聞報(bào)道，依舊只能停留在簡(jiǎn)單的基本能力應(yīng)用模仿上。

⑥ 大模型會(huì)有哪些方向

關(guān)于大模型的演進(jìn)，經(jīng)常提的是在五感信息方面擴(kuò)展，比如在語(yǔ)言基礎(chǔ)上疊加視覺(jué)多模態(tài)，或者疊加觸覺(jué)類(lèi)的動(dòng)作能力。

我覺(jué)得這件事可以從世界信息的維度來(lái)看，雖然大模型都是在壓縮世界知識(shí)，但是世界知識(shí)收集的維度有很多來(lái)源，比如互聯(lián)網(wǎng)上的信息（統(tǒng)一歸結(jié)為線上社交互動(dòng)）、線下人與物之間的交互、線下的社交活動(dòng)行為、人與商業(yè)服務(wù)實(shí)體的互動(dòng)、商業(yè)關(guān)聯(lián)實(shí)體間的互動(dòng)等等。不同維度的信息需要搭建不同的數(shù)據(jù)收集通道，以及不同的數(shù)字化的方式，而大模型可以壓縮的各個(gè)維度的世界知識(shí)越多，大模型可以輸出的能力也就越豐富。在不考慮信息收集成本的前提下，大模型無(wú)限收集和壓縮世界知識(shí)確實(shí)可以實(shí)現(xiàn)全知全能的信息復(fù)現(xiàn)能力。

對(duì)于國(guó)內(nèi)來(lái)說(shuō)，有另一層的問(wèn)題，就是很多線下信息的線上化程度不足，比如國(guó)內(nèi)的圖書(shū)館信息因?yàn)榫€上化的程度小，就沒(méi)法像沒(méi)過(guò)一樣把這些信息全部輸入大模型充分利用。這個(gè)有可能也會(huì)是一種機(jī)會(huì)，就像美國(guó)當(dāng)年的加利福尼亞淘金熱，淘金的人賺錢(qián)的沒(méi)有多少，而送水、住宿、賣(mài)稿子的都賺的盆滿(mǎn)缽滿(mǎn)。另一方面，這種淘金熱也直接讓美國(guó)西部出現(xiàn)了新興的城市圈，對(duì)現(xiàn)在的美國(guó)長(zhǎng)期產(chǎn)生深遠(yuǎn)影響。我覺(jué)得可以預(yù)期就算大模型從業(yè)人員確實(shí)不會(huì)有很多人賺到錢(qián)，但是對(duì)于整個(gè)社會(huì)來(lái)說(shuō)一定會(huì)產(chǎn)生長(zhǎng)遠(yuǎn)的正向收益。

數(shù)據(jù)的重要性這件事，從最近OpenAI發(fā)布的“過(guò)程監(jiān)督（PRM）”的訓(xùn)練方法也可以側(cè)面看出數(shù)據(jù)的重要性。對(duì)于數(shù)據(jù)質(zhì)量的要求越來(lái)越高，不止于最終結(jié)果，已經(jīng)拓展到推理過(guò)程中。不過(guò)這也變現(xiàn)的導(dǎo)致數(shù)據(jù)的標(biāo)注成本越來(lái)越高，大模型對(duì)于高質(zhì)量數(shù)據(jù)的需求，隨著大模型國(guó)產(chǎn)化的進(jìn)程，市場(chǎng)空間一定會(huì)越來(lái)越大。

Let’s Verify Step by Step（https://arxiv.org/pdf/2305.20050.pdf）

第三個(gè)問(wèn)題就是，國(guó)內(nèi)的AI競(jìng)爭(zhēng)格局來(lái)說(shuō)，跟風(fēng)扎堆現(xiàn)象很重。像CV四小龍當(dāng)年最后落得變成各個(gè)客戶(hù)算法池中的一員，這種競(jìng)爭(zhēng)格局肯定是不希望在大模型上看到的。

打造一個(gè)基本能用的通用大型語(yǔ)言模型，可能只是人力和成本問(wèn)題，在路線明朗的現(xiàn)在，難度上并不高，這也是給了行業(yè)扎堆的理由，用錢(qián)可以解決的問(wèn)題一般都不會(huì)成為問(wèn)題。

但是在國(guó)內(nèi)的算法廠商和應(yīng)用廠商之間，都會(huì)有一層中臺(tái)系統(tǒng)，這個(gè)系統(tǒng)負(fù)責(zé)調(diào)度大模型的能力，以及進(jìn)行業(yè)務(wù)的分配。實(shí)際上，最后真正掌握了中臺(tái)系統(tǒng)建設(shè)和話語(yǔ)權(quán)的廠商，才是最后控制行業(yè)話語(yǔ)權(quán)的廠商，對(duì)大模型來(lái)說(shuō)，往往沒(méi)有AI能力的廠商對(duì)于大模型理解不充分，具備大模型能力的廠商又看不太起這種純粹的力氣活，我覺(jué)得這里面可能就看誰(shuí)最先具備了“知識(shí)+投入決心”，誰(shuí)就有可能是這盤(pán)棋的最后贏家。

除了上面的幾個(gè)大問(wèn)題之外，關(guān)于大模型的能力演進(jìn)方向，我覺(jué)得微軟總結(jié)的算是比較全面的，現(xiàn)在的各大國(guó)內(nèi)公司在大模型內(nèi)不斷增加的功能和特性也都可以在里面看得到，加之我自己對(duì)于各個(gè)維度的一些理解，搬了過(guò)來(lái)：

置信度校準(zhǔn)（Confifidence calibration）:通過(guò)引用外部工具（例如搜索引擎）或者其他方式緩解幻覺(jué)問(wèn)題，或者讓模型判斷什么時(shí)候?qū)敵鼋Y(jié)果有信心，RAG的檢索增強(qiáng)技術(shù)就是一種最常用的校準(zhǔn)方式。
長(zhǎng)時(shí)記憶（Long-term memory）: 賦予模型需要長(zhǎng)期記住的一些知識(shí)或者前提，例如解讀歷史的時(shí)候，需要對(duì)一些基本背景有一些了解，同時(shí)簡(jiǎn)化情景的一些假設(shè)往往才是討論的前提。
持續(xù)學(xué)習(xí)（Continual learning）: 這也是經(jīng)常被談及的通用人工智能準(zhǔn)則，可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。
個(gè)性化（Personalization）: 基于用戶(hù)畫(huà)像的個(gè)性化，這個(gè)概念對(duì)于國(guó)內(nèi)來(lái)說(shuō)可太熟了，放到交互上，就是每個(gè)面向?qū)ο蠼换サ母鞣礁髅娑剂η髠€(gè)性化。
計(jì)劃與概念發(fā)散（Planning and conceptual leaps）: 這個(gè)其實(shí)說(shuō)的就是具備非連續(xù)性的能力，或者以人的思考方式來(lái)類(lèi)比，就是具備腦暴那種發(fā)散性思考能力。
透明度、可解釋性與一致性（Transparency, interpretability and consistency）: 目前的GPT可以認(rèn)為是事后解釋?zhuān)瑸樽约旱男袨檫M(jìn)行合理化，但是這種在行為學(xué)里明顯會(huì)有“過(guò)度合理化”的問(wèn)題，如何讓解釋性做在輸出之前，讓模型真正做到先解釋思考再輸出就是一個(gè)方向。COT可以認(rèn)為是一個(gè)很好的開(kāi)端，但是遠(yuǎn)遠(yuǎn)不夠。
認(rèn)知偏見(jiàn)和非理性（Cognitive fallacies and irrationality）: 因?yàn)閿?shù)據(jù)對(duì)大模型的巨大影響，人類(lèi)社會(huì)一般的偏見(jiàn)，例如職業(yè)和性別的偏見(jiàn)就會(huì)影響大模型。
對(duì)敏感輸入的挑戰(zhàn)（Challenges with sensitivity to inputs）: 目前的大模型的設(shè)計(jì)方式導(dǎo)致prompt內(nèi)容十分敏感，但是如果我們?nèi)狈?zhuān)業(yè)的Few shot知識(shí)或者時(shí)間來(lái)去撰寫(xiě)它，是否也能讓大模型對(duì)于輸入很敏感。

另外，從目前對(duì)于大模型的個(gè)人分析，我覺(jué)得有幾個(gè)方向也值得大模型的研究者關(guān)注：

思考的連續(xù)性：如果仔細(xì)對(duì)比GPT4和Chatgpt，可以發(fā)現(xiàn)兩者最大的區(qū)別就在于GPT4的所有輸出都是經(jīng)過(guò)一系列連續(xù)步驟的思考的，而Chatgpt很多時(shí)候則是直接輸出結(jié)果，這種直接輸出的結(jié)果經(jīng)常都是錯(cuò)誤的。這就意味著思維鏈這種思考模式，以及這種連續(xù)性思考能力的不斷深入的推理能力，可能是大模型進(jìn)化需要具備的最重要的能力，我理解這也是為什么Openai做了過(guò)程監(jiān)督（PRM）進(jìn)一步強(qiáng)化這個(gè)過(guò)程。從表現(xiàn)來(lái)看，Chatgpt的輸出永遠(yuǎn)都是不連貫的，像是一個(gè)在給自己的結(jié)果找理由的小孩，而GPT4則一定程度上實(shí)現(xiàn)了一步一步的連續(xù)性推理。
訓(xùn)練數(shù)據(jù)的范式：Chatgpt傾向于直接輸出錯(cuò)誤的結(jié)果（尤其在數(shù)學(xué)計(jì)算中），可能與訓(xùn)練數(shù)據(jù)中基本都是傾向于要給出答案的范式有關(guān)。在我體驗(yàn)的cluade和GPT的差異中，我也可以明顯的感覺(jué)出來(lái)訓(xùn)練數(shù)據(jù)不同的范式傾向，傾向討論問(wèn)題還是傾向輸出結(jié)果，傾向于與人協(xié)作補(bǔ)充信息還是堅(jiān)持自己的看法不斷找理由，我覺(jué)得設(shè)計(jì)者對(duì)于這些數(shù)據(jù)的定義傾向就決定了大模型的傾向。其中一個(gè)最明顯的例子就是即使是GPT4強(qiáng)化了思考連續(xù)性，甚至給出了Few-shot，在很多數(shù)學(xué)計(jì)算中，還是會(huì)忽略計(jì)算過(guò)程直接給一個(gè)錯(cuò)誤的結(jié)果，而如果讓GPT把過(guò)程呈現(xiàn)出來(lái)，GPT就會(huì)輸出正確結(jié)果。
動(dòng)態(tài)規(guī)劃能力：數(shù)學(xué)建模領(lǐng)域中，除了連續(xù)性的思考以及引用外部各領(lǐng)域物理學(xué)定律知識(shí)之外，還有一種重要的能力就是動(dòng)態(tài)規(guī)劃能力，可以實(shí)時(shí)的格局當(dāng)下的情景做出當(dāng)下的最優(yōu)決策，即使以大模型的計(jì)算能力來(lái)說(shuō)，這種能力對(duì)于處理現(xiàn)實(shí)的復(fù)雜問(wèn)題也有明顯的優(yōu)勢(shì)和好處。
大模型、人和環(huán)境的交互：鑒于我一直是人機(jī)合作的忠實(shí)支持者，我始終認(rèn)為人機(jī)融合的交互方式，能夠相互補(bǔ)位，并且能夠與環(huán)境進(jìn)行互動(dòng)的理念才是發(fā)展的終極方向。

⑦ 建構(gòu)大模型的生態(tài)

對(duì)于大模型來(lái)說(shuō)，依據(jù)大模型的數(shù)據(jù)和調(diào)整方式，可以分為三種“基礎(chǔ)大模型”、“微調(diào)行業(yè)大模型”、“大模型+Prompt插件”，分別對(duì)應(yīng)了大模型中的三種數(shù)據(jù)“預(yù)訓(xùn)練數(shù)據(jù)+SFT”、“微調(diào)數(shù)據(jù)集”和“實(shí)時(shí)交互的Prompt”。三種模式分別有對(duì)應(yīng)的應(yīng)用場(chǎng)景和所需的最低成本投入，所以其實(shí)一般看一家做大模型的公司投入情況，大概就可以猜出他們的實(shí)現(xiàn)方案是用的哪一種，以及大概效果會(huì)怎么樣。關(guān)于效果其實(shí)更多的是說(shuō)模型對(duì)于語(yǔ)言的深層理解如何，單純的模仿某種行業(yè)的場(chǎng)景進(jìn)行回答，這個(gè)其實(shí)在較數(shù)B量級(jí)就可以做到，然而這種模仿小模型實(shí)際上做一些推理或者解決行業(yè)深度問(wèn)題的時(shí)候就完全力不從心：

基礎(chǔ)大模型：論證復(fù)現(xiàn)一個(gè)gpt需要多少錢(qián)的文章其實(shí)很多，大家可以自己去查，大致來(lái)說(shuō)不到數(shù)億的投入基本都說(shuō)明這個(gè)廠商并沒(méi)有在做自己的基礎(chǔ)大模型；
行業(yè)應(yīng)用模型：這個(gè)其實(shí)成本空間上下限就很大，Lora這種微調(diào)可以在幾個(gè)小時(shí)幾百塊就微調(diào)出一個(gè)效果看起來(lái)很不錯(cuò)的行業(yè)應(yīng)用，并且Lora可以不將大模型私有化部署，因?yàn)楸举|(zhì)上只是一種外掛，并沒(méi)有動(dòng)到模型本身，和F-tune、P-tune很不同。但是如果采用Tuning的路線，往往從行業(yè)知識(shí)建立到定制優(yōu)化需要數(shù)十人的團(tuán)隊(duì)來(lái)做，但是這種優(yōu)化方式其實(shí)穩(wěn)定性和應(yīng)用潛力都會(huì)更高一些。
Prompt插件：更多針對(duì)個(gè)人應(yīng)用者，因?yàn)榇竽Ｐ蛯?duì)于Prompt高度敏感，所以給大模型一個(gè)prompt設(shè)定，大模型基本可以較好的完成絕大多數(shù)的個(gè)人問(wèn)題。這也就導(dǎo)致大模型的插件（或者function）生態(tài)很強(qiáng)。

不論大模型（特指LM）如何強(qiáng)大，本質(zhì)上依舊是一個(gè)預(yù)測(cè)下一個(gè)單詞的語(yǔ)言模型，但是其對(duì)于語(yǔ)言的深刻理解，實(shí)際上賦予了它可以應(yīng)用到各行各業(yè)的潛力。成本下降、輕定制、交互界面自然化這三件事實(shí)際上加速促進(jìn)了這個(gè)進(jìn)程，這一未來(lái)體系中，除了基礎(chǔ)大模型的提供者之外，可能會(huì)有如下重要的參與者出現(xiàn)：

專(zhuān)家系統(tǒng)提供者：訓(xùn)練自己的expert模型，成為MOE架構(gòu)下的專(zhuān)家系統(tǒng)之一，這種相對(duì)封閉生態(tài)模式類(lèi)似于加入基礎(chǔ)大模型的開(kāi)放平臺(tái)，成為服務(wù)供應(yīng)商之一，按調(diào)用次數(shù)收費(fèi)；
行業(yè)垂直應(yīng)用：基于Finetune、P-tuning精調(diào)大模型的訪問(wèn)方式，以低成本實(shí)現(xiàn)垂直行業(yè)的應(yīng)用；
Lora開(kāi)放生態(tài)：為什么單挑Lora出來(lái)了，因?yàn)楝F(xiàn)在非AI行業(yè)的產(chǎn)品都需要自己的定制方案，但是一般大模型都作為核心資產(chǎn)存在大模型廠商云端，而lora這種在大模型之外外掛微調(diào)的方式，就可以做到不影響原始大模型的基礎(chǔ)上，開(kāi)放出去進(jìn)行微調(diào)，同時(shí)這種輕量級(jí)微調(diào)的成本也更低；
Function開(kāi)發(fā)者：大模型的一些問(wèn)題也可以指望通過(guò)生態(tài)解決，例如GPT4最近推出的Function Call這種類(lèi)似外掛知識(shí)+檢索的方式，這個(gè)同時(shí)相當(dāng)于賦予了大模型在語(yǔ)言之外可以直接“操作”的權(quán)利，作為提供這種接口的開(kāi)發(fā)者有點(diǎn)像成為安卓或者IOS的開(kāi)發(fā)者；
個(gè)人應(yīng)用者：對(duì)于不希望與大模型定制做交互的普通應(yīng)用者，可以以Prompt插件的方式在會(huì)話中訪問(wèn)大模型的某一部分能力，因?yàn)榇竽Ｐ蛯?duì)于Prompt具有極高的敏感性，僅僅Prompt提示以及in-context-learning就可以讓大模型指定領(lǐng)域效果相當(dāng)出眾，所以才會(huì)有相當(dāng)多人提及Prompt工程師的出現(xiàn)。

圖片摘自C站社區(qū)，隨便找了一張圖

實(shí)際上，我認(rèn)為后面大模型調(diào)整的界面有可能也會(huì)越來(lái)越UI化，就像SD的webui“AUTOMATIC1111”，通過(guò)戳戳點(diǎn)點(diǎn)實(shí)現(xiàn)模型調(diào)整，當(dāng)然其實(shí)這并不意味著不需要具備算法知識(shí)了，以圖像生成舉例，相當(dāng)多的SD微調(diào)模型都是一些基礎(chǔ)模型的簡(jiǎn)單衍生，真正調(diào)整的人依舊需要“面向模型debug”，只是把別人告知的參數(shù)直接生套在任何場(chǎng)景上，效果必然不佳。

另一方面，大模型的一些典型問(wèn)題，例如知識(shí)幻覺(jué)，相當(dāng)多的論文解決知識(shí)幻覺(jué)的思路也是加入知識(shí)外掛檢索環(huán)節(jié)，這些生態(tài)必然對(duì)大模型的應(yīng)用豐富性有增益。但是究其本質(zhì)，我覺(jué)得這些問(wèn)題還是需要大模型本身去解決問(wèn)題，例如單向語(yǔ)言模型無(wú)法回顧和修改上文輸出，導(dǎo)致推理過(guò)程錯(cuò)誤，這種是否就應(yīng)該考慮雙向語(yǔ)言模型的發(fā)展方向。

⑧ 大模型的評(píng)估方法

大模型的評(píng)估原則和小模型沒(méi)有本質(zhì)區(qū)別，依舊是“評(píng)估模型性能的離線指標(biāo)”和“評(píng)估實(shí)際業(yè)務(wù)場(chǎng)景的業(yè)務(wù)指標(biāo)”，兩種方式結(jié)合。但是實(shí)際上因?yàn)榇竽Ｐ偷囊?guī)模和通用性，評(píng)估大模型實(shí)際上是一件更加復(fù)雜的事情，這方面有相當(dāng)多的論文提出了各種指標(biāo)作為評(píng)價(jià)依據(jù)，還有一些提出了很多主觀性指標(biāo)例如“攻擊性”“不確定性”“毒害性”等等，但是在這之中，微軟對(duì)于GPT4的測(cè)試方法我覺(jué)得是最為合理的。

對(duì)于離線指標(biāo)：

除了模型基本性能的準(zhǔn)召、F1、AUC等等各項(xiàng)指標(biāo)之外，針對(duì)每一項(xiàng)子任務(wù)可以采用對(duì)應(yīng)的指標(biāo)例例如文本生成類(lèi)的BLEU、ROUGE等等，圖像類(lèi)的CIDER、METEOR、SPICE等等。
另外針對(duì)于每種子任務(wù)，目前專(zhuān)門(mén)測(cè)試集在逐步完善。例如BIG-BENCH（https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks）上面有214多種各個(gè)維度的任務(wù)數(shù)據(jù)集，這些測(cè)試集都可以用來(lái)測(cè)試大模型在某個(gè)維度的具體效果如何。

對(duì)于業(yè)務(wù)指標(biāo)：這里不討論類(lèi)似CTR（點(diǎn)擊率）這種上線后用戶(hù)操作反饋的指標(biāo)。

對(duì)于類(lèi)似BIG-BENCH這種集合來(lái)說(shuō)，我感覺(jué)其實(shí)對(duì)于真正測(cè)試大模型的效果可能過(guò)于簡(jiǎn)單了，更像是測(cè)試大模型覆蓋了哪些子任務(wù)的子任務(wù)測(cè)試集，類(lèi)比的話我感覺(jué)更像是功能測(cè)試集，而不是效果測(cè)試集。

實(shí)際上BIG-BENCH中很多都是類(lèi)似【俄語(yǔ)問(wèn)答】、【上下文沖突】等等具有明確的正確錯(cuò)誤概念的任務(wù)。例如上面圖片中是我翻閱了我認(rèn)為相對(duì)正誤邊界模糊一些的【Sufficient Information】的任務(wù)中的一些示例，依舊可以看出問(wèn)題其實(shí)相對(duì)于現(xiàn)實(shí)真實(shí)問(wèn)題來(lái)說(shuō)，測(cè)試集中的問(wèn)題邊界清晰度高得。

例如現(xiàn)實(shí)問(wèn)題中不會(huì)出現(xiàn)“我有一些書(shū)，我丟了一半，我現(xiàn)在還有幾本書(shū)”這種顯性缺失的情況，而更可能是我上面以GPT4的會(huì)話能力舉例的“今天我是第一天上班，我應(yīng)該穿什么衣服”，要解答這個(gè)問(wèn)題實(shí)際上需要至少知道“個(gè)人性別身高體重”、“公司著裝規(guī)定”、“個(gè)人著裝偏好”、“天氣情況”等等前置信息才能給出答案，甚至還需要考慮不同國(guó)家地區(qū)的文化差異。

而這些隱含信息LLM是否能夠判斷出來(lái)是缺失的，我覺(jué)得這種問(wèn)題才是真正能夠測(cè)試大模型能力的問(wèn)題。

上面的闡述的核心觀點(diǎn)在于，我認(rèn)為目前還沒(méi)有人提出一個(gè)真正可以測(cè)試大模型各個(gè)方面真實(shí)能力的測(cè)試集合。它可能需要像專(zhuān)家測(cè)試初學(xué)者的人類(lèi)一樣，以專(zhuān)業(yè)者的視角提出各種深度的問(wèn)題組成一個(gè)測(cè)試集合來(lái)進(jìn)行測(cè)試。

我很希望聚合各領(lǐng)域?qū)＜业闹R(shí)，創(chuàng)造這種公開(kāi)的能力測(cè)試集，以能真正推動(dòng)大模型在實(shí)用上更進(jìn)一步。實(shí)際上，大模型在很多的真實(shí)事務(wù)場(chǎng)景中都表現(xiàn)并不好，另一個(gè)典型的例子是如果我讓大模型寫(xiě)一份年終總結(jié)，大模型甚至?xí)褬窍掳拥甑男±钜卜胚M(jìn)去，大模型不認(rèn)為有主次的概念，我覺(jué)得這些真實(shí)場(chǎng)景的模型能力都有待加強(qiáng)。

因此我其實(shí)十分推崇Miscrosoft對(duì)于大模型的測(cè)試評(píng)估方案，針對(duì)大模型的認(rèn)知學(xué)、數(shù)學(xué)、情感等等各個(gè)領(lǐng)域以評(píng)估人類(lèi)心智的題目方式來(lái)對(duì)大模型進(jìn)行測(cè)試評(píng)估，這種方式是更加合理的?！禨parks of Artificial General Intelligence: Early experiments with GPT-4 》這篇測(cè)試確實(shí)寫(xiě)的很好，我覺(jué)得與其我斷章取義，不如去看下原文https://arxiv.org/pdf/2303.12712.pdf。

另一層面，對(duì)于大模型真實(shí)應(yīng)用場(chǎng)景的業(yè)務(wù)指標(biāo)，需要像微軟一樣以領(lǐng)域?qū)I(yè)人士測(cè)試人類(lèi)的方式，來(lái)構(gòu)造對(duì)應(yīng)的測(cè)試集合和數(shù)據(jù)指標(biāo)，以來(lái)評(píng)估大模型某一方面的能力，當(dāng)然這首先可能需要測(cè)試人員成為這一領(lǐng)域的入門(mén)專(zhuān)家，了解如何以一個(gè)專(zhuān)家的視角來(lái)審查大模型的能力水平。

四、后記

1. 以另一個(gè)視角對(duì)大模型扯點(diǎn)別的

因?yàn)樽罱瓿鯇?duì)于法律領(lǐng)域也稍微涉獵了一些功利主義“最多數(shù)人最大善”的問(wèn)題，這些啟發(fā)我從另一個(gè)層面的思考大模型這件事：

大模型本身依舊是效率的化身，效率是否總是有益的？這件問(wèn)題其實(shí)很有意思，比如如果我們以電商減少了線下人與人之間的社交場(chǎng)景來(lái)看待電商，就會(huì)發(fā)現(xiàn)在生產(chǎn)大于消費(fèi)的時(shí)代下，電商實(shí)際上對(duì)于社會(huì)整體收入創(chuàng)造是減少的。那么對(duì)于大模型來(lái)說(shuō)，其實(shí)也會(huì)有類(lèi)似的情況，如果所應(yīng)用的行業(yè)、甚至公司個(gè)體，整體是生產(chǎn)大于消費(fèi)的階段，那么再提效其實(shí)只會(huì)降低整體的產(chǎn)出收入總額。
大模型的高投入會(huì)帶來(lái)一個(gè)問(wèn)題，真正可以進(jìn)入的玩家數(shù)量很少，普通人甚至提出一個(gè)自己的假設(shè)都沒(méi)有辦法去實(shí)施驗(yàn)證（普通人總沒(méi)辦法買(mǎi)一堆A100每天做Fintune甚至預(yù)訓(xùn)練來(lái)實(shí)驗(yàn)自己的想法對(duì)吧）。這種格局實(shí)際上很容易導(dǎo)致壟斷現(xiàn)象，對(duì)于商業(yè)而言，壟斷的問(wèn)題不在于寡頭借助壟斷地位賺高額利潤(rùn)，相反，過(guò)去的壟斷行業(yè)巨頭都傾向于不斷提高產(chǎn)品效率和質(zhì)量，而降低產(chǎn)品的售價(jià)。借助這種方式可以讓后來(lái)的玩家進(jìn)入門(mén)檻越來(lái)越高，對(duì)于大模型來(lái)說(shuō)更是這樣，當(dāng)你花費(fèi)了相當(dāng)多的投資人的錢(qián)和時(shí)間，做出來(lái)一個(gè)東西，但是頭部玩家已經(jīng)把效果提升了一倍，成本壓低了一倍，這個(gè)事情就完全沒(méi)有價(jià)值。

2. 談一談后續(xù)計(jì)劃

目前確定的一個(gè)計(jì)劃是，這次文章雖然寫(xiě)了很長(zhǎng)，但是因?yàn)檫^(guò)度壓縮了，其實(shí)真正想展開(kāi)談的內(nèi)容并沒(méi)有展開(kāi)談，因此關(guān)于【對(duì)話】【寫(xiě)作】【情感】這些人類(lèi)社會(huì)抽象問(wèn)題的理解和實(shí)踐思路，打算拿出來(lái)虛擬人設(shè)計(jì)的一些實(shí)踐經(jīng)驗(yàn)，和大家分享討論下我對(duì)這些本質(zhì)問(wèn)題的一些理解。在我們的實(shí)踐中，這些發(fā)現(xiàn)和理解每一條其實(shí)都讓輸出的效果產(chǎn)生了極大的變化。

再一個(gè)可能得計(jì)劃是，因?yàn)樽约阂恢北３种虡I(yè)學(xué)習(xí)的興趣，一直也希望和更多人探討，只是這方面咨詢(xún)公司和顧問(wèn)大佬太多，我的觀點(diǎn)也基本和大佬們雷同，說(shuō)實(shí)話沒(méi)啥信心能談啥新東西，暫定看看再說(shuō)吧。

在我寫(xiě)這篇文章的過(guò)程中，其實(shí)我也重新審視了下寫(xiě)作這件事，發(fā)現(xiàn)這篇是純粹的分享類(lèi)型的寫(xiě)作方式，要點(diǎn)穿插在文章內(nèi)部，如果是科普文章或者教科書(shū)可能就會(huì)根據(jù)要點(diǎn)來(lái)組織文章，如果是匯報(bào)和總結(jié)就會(huì)按照總分組織文章，這種觀察我覺(jué)得是大模型時(shí)代設(shè)計(jì)的重要?jiǎng)幼?。這些范式的定義行為決定了大模型對(duì)于【寫(xiě)作】這件事的理解是怎么樣的，也就是所謂的“設(shè)計(jì)者意志”問(wèn)題。

關(guān)于這篇文章，一開(kāi)始也提了本質(zhì)上只是個(gè)人抱著希望更多專(zhuān)業(yè)人士來(lái)找我交流探討的目的寫(xiě)的。雖然大模型出現(xiàn)之后加了一些討論群，但是群里充斥著基礎(chǔ)的問(wèn)題解答、新聞稿搬運(yùn)，還有外行看熱鬧的討論。讓我對(duì)這些社群相當(dāng)失望，關(guān)于大模型本身的運(yùn)作機(jī)制，一些未來(lái)方向的實(shí)踐，這些問(wèn)題都需要：

一個(gè)高質(zhì)量的討論環(huán)境，這個(gè)環(huán)境應(yīng)該具備一些基本要求，比如討論人大模型的基本論文至少需要讀過(guò)，當(dāng)然可能是我沒(méi)有接觸到，如果有的話，希望能夠進(jìn)入圈子：
一個(gè)實(shí)驗(yàn)想法的環(huán)境，這個(gè)環(huán)境具備大模型基本的訓(xùn)練和調(diào)試資源，可以以相對(duì)低廉的復(fù)用成本進(jìn)行各方向應(yīng)用的嘗試，這種實(shí)踐的環(huán)境對(duì)于大模型來(lái)說(shuō)實(shí)在寶貴；

這些變化對(duì)于偏好不確定性的人（比如我）來(lái)說(shuō)，我覺(jué)得是一個(gè)十分有趣的變化。歡迎各位通過(guò)各種方式聯(lián)系到我，期待與各位的交流與研討。

本文由 @MrMa 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

MrMa

訊飛產(chǎn)品負(fù)責(zé)人、前百度產(chǎn)品，古典主義產(chǎn)品

3篇作品 24636總閱讀量

聊聊我對(duì)個(gè)體創(chuàng)業(yè)的認(rèn)識(shí)

10-241059 瀏覽

ChatGPT重磅升級(jí)，套殼GPT的都將“滅亡”！

10-112949 瀏覽

业务篇：B端产品经理面试，注意这些细节

刚刚

產(chǎn)品經(jīng)理怎么寫(xiě)年終總結(jié)，做好工作匯報(bào)？這樣做，升職加薪不錯(cuò)過(guò)

12-278087 瀏覽

掘金本地生活：頭部達(dá)人月入30萬(wàn)，8成難過(guò)萬(wàn)

08-214402 瀏覽

ACSI：360度無(wú)死角測(cè)量顧客滿(mǎn)意度

09-132835 瀏覽

評(píng)論

尼莫點(diǎn)

干貨滿(mǎn)滿(mǎn)，正在研讀

最近來(lái)自北京回復(fù)
尼莫點(diǎn)

干貨慢慢，正在研讀

最近來(lái)自北京回復(fù)
張家有女懶洋洋

學(xué)習(xí)了

最近來(lái)自廣東回復(fù)
MrMa 作者

個(gè)人微信號(hào)：歡迎找我討論

最近來(lái)自安徽回復(fù)
1. MrMa 作者回復(fù)MrMa
  
  hopemrma
  
  最近來(lái)自安徽回復(fù)