AI Agent 摩爾定律:每7個月能力翻倍,帶來軟件智能大爆炸
AI Agent領域正經(jīng)歷指數(shù)級增長,能力每7個月翻倍,甚至在2024-2025年加速至每4個月翻倍。這一趨勢被稱為“AI Agent摩爾定律”,預示著未來幾年AI將從完成簡單任務邁向處理復雜項目的里程碑。本文深入探討這一現(xiàn)象背后的驅(qū)動力、技術瓶頸及潛在的“軟件智能爆炸”(SIE)終局猜想,揭示AI自主開發(fā)AI的革命性前景。
AI Agent 領域也存在 scaling law,甚至還在加速。
2022 年 ChatGPT 剛發(fā)布時能夠?qū)崿F(xiàn)的代碼任務差不多等同于人類耗時 30s 的任務,到今天,AI Agent 已經(jīng)能夠自主完成需要人類花費一個小時的 coding 任務。“任務長度”是一個相當直觀地測量 AI Agent 能力變化的標準。
AI 獨立研究機構 META 的數(shù)據(jù)分析發(fā)現(xiàn),Agent 能夠完成的任務長度正以指數(shù)級增長,大約每 7 個月翻一倍,預計 2029 年 Agent 能夠完成時長為 1 個工作月的任務。
有意思的是,最近這一趨勢甚至還在加速,2024-2025 年 Agent 能完成的任務長度約每 4 個月翻一倍,如果這種更快的趨勢持續(xù)下去,Agent 可能在 2027 年就能完成長達一個月的任務。
本文是對 META、Forethought 和 AI Digest 研究對于 agent scaling law 的整理編譯。AI 研究人員們認為,AI scaling law 的終局是 AI agent 自主開發(fā) AI agent,到了那個時候我們就會進入軟件智能爆炸時代(Software Intelligence Explosion,SIE)。
衡量模型能力進步和算力成本下降的“新摩爾定律”是基礎模型競賽階段的關鍵坐標系,隨著 2025 ?Agent 落地,摩爾定律進入 3.0,AI agent 的 scaling law 也為我們部署 agent 投資和產(chǎn)品提供了參考指引。
?? 目錄 ??
01 如何科學衡量 Agent 的能力
02 AI Agent 能力每 7 個月翻倍
03 AI Scaling Law 還在加速
04 為什么會出現(xiàn) Agent Scaling Law
05 終局猜想:Agent 開發(fā) Agent
06 潛在瓶頸和解決方案
01.如何科學衡量Agent 的能力
雖然 AI 能力在某種意義上正快速提升,但這種提升與對現(xiàn)實世界的影響之間的關聯(lián)并不清晰。
在大部分定量測試問題上(exam-style problems),AI 很多時候已經(jīng)比人類專家還要強,并且只靠極低的算力成本就可以實現(xiàn)這一點,經(jīng)過專門的 fine-tuning 后,AI 甚至已經(jīng)可以幫人類處理很多任務。
但即使是能力最強大的 AI Agent,目前也無法獨立完成實質(zhì)性的項目,或直接替代人類勞動力,甚至無法可靠地進行基礎的電腦操作。
考慮到 AI Agent 并不是缺乏解決單步驟任務的技能或知識,它們主要在多步驟任務中,將更長的動作序列串聯(lián)起來時會遇到困難,因此,METR 的研究人員選擇以人類專業(yè)人士完成某個任務所需的時間定義為“任務長度”,并把“任務長度”作為衡量 Agent 在現(xiàn)實世界能力的指標。
直觀來看,ChatGPT 在 2022 年推出時,它能夠完成耗時 30 秒的 coding 任務,到今天, AI Agent 已經(jīng)能夠自主完成需要人類花費一個小時的 coding 任務。
02.AI Agent ?能力
每 7 個月翻倍
METR 選取了 2019 年至 2025 年間最強大的 AI Agent ,并在大約 200 個任務上進行了測試,這些測試中主要是 coding 類任務,還有一部分是通用推理任務,這些任務的長度短至 30 秒以內(nèi),長至超過 8 小時。隨后,他們將 Agent 的任務成功率與每個任務的長度進行了比較,發(fā)現(xiàn):
- 任務長度與 Agent 成功率高度相關(R2 = 0.83);
- Agent 在成功率為 50% 的情況下,能完成的任務長度呈指數(shù)級增長。
任務長度與 Agent 成功率高度相關
在一組多步驟的任務中,METR 發(fā)現(xiàn),當模型在完成耗時少于 4 分鐘的任務時,成功率接近 100%;但對于耗時超過 4 小時的任務,成功率卻不到 10%。
基于這一發(fā)現(xiàn),可以用“模型能夠以 x% 概率成功完成的任務長度”來描述模型的能力,并擬合出一條曲線,以任務長度來預測模型的成功概率。也可以確定一個成功概率數(shù)值后,基于曲線來預測這一任務成功率下, AI Agent 可以完成的任務長度。
人類完成任務所需時間與模型任務完成成功率的關系圖
模型能夠以 50% 概率成功完成的任務長度示意圖。例如,Claude 3.7 Sonnet(圖中最右側的模型,用最深的綠色表示)以 50% 概率成功完成的任務長度約為一小時,因為擬合曲線在這一時間點與 50% 成功概率的閾值相交
這一點也很好得解釋了前面提到的現(xiàn)象:模型能夠在很多 benchmark 測試上超越人類能力,但到了日常工作自動化的場景中,又常常顯得不夠可靠。
因為即使是今天最先進的模型,這些模型能夠解決一些即使是專業(yè)人士也需要花費數(shù)小時的難題,但在任務執(zhí)行上,它們在保證質(zhì)量穩(wěn)定的前提下,可以參與“任務長度”還停留在幾分鐘以內(nèi)的水平。
AI Agent 能夠執(zhí)行的任務長度每 7 個月翻倍
在過去 6 年中,以 50% 成功概率為標準,頭部模型能夠完成的任務長度已顯著增加。如果在對數(shù)坐標系中繪制這一趨勢,模型能夠完成的任務長度與指數(shù)趨勢高度吻合,大概每 7 個月翻一倍。
雖然 Agent 能夠完成的任務長度的長短取決于研究人員所定義的計算方式,比如研究中使用的任務類型、用于衡量表現(xiàn)的人類水平等,但整體趨勢大致是正確的:大約每年有 1-4 次翻倍。在未來 2-4 年,如果過去 6 年的這種趨勢可以繼續(xù)保持,那 Agent 將能夠完成各種為期一周的任務。
而且這一趨勢非常陡峭,這意味著,即使測量存在較大誤差,或者模型與人類對比時存在偏差,都不影響對趨勢的預測,極端情況下,即使絕對測量值存在 10 倍的偏差,但反應到 AI Agent 能力進步的時間預測,這種偏差僅為 2 年。
不過我們?nèi)匀灰紤]到存在模型顯著誤差的可能性。比如,在預測 AI 未來表現(xiàn)上,與用 2024 年之前的 AI 發(fā)展趨勢相比,用 2024 年之后的 AI 發(fā)展趨勢來預測的話,時效性會更強。
如果只對 2024 年和 2025 年的數(shù)據(jù)進行擬合,AI Agent 的可靠性在 50% 不變的情況下,Agent 實現(xiàn)一個月任務長度能力的時間縮短了~ 2.5 年。
Agent 能完成的任務長度的指數(shù)級增長趨勢似乎非常穩(wěn)固,而且目前沒有出現(xiàn)趨于平穩(wěn)的跡象。根據(jù)這一趨勢進行推測,預計:
- 2026 年 Agent 能夠完成時長為 2 小時的任務,
- 2027 年 Agent 能夠完成時長為 1 個工作日(8 小時)的任務,
- 2028 年 Agent 能夠完成時長為 1 個工作周(40 小時)的任務,
- 2029 年 Agent 能夠完成時長為 1 個工作月(167 小時)的任務。
03.Agent Scaling Law還在加速
如同上面提到的,AI Agent 能力進步上不僅存在 7 個月翻倍的趨勢,且能力翻倍的時間還在不斷縮短,且這一趨勢甚至還在加速,這本質(zhì)上是因為底層模型能力還在不斷進步。
在 METR 的測算中, 2024-2025 年,Agent 能完成的任務長度每 4 個月翻一倍,而 2019-2025 年,這一速度是每 7 個月翻一倍。這意味著,如果 4 個月翻倍這一趨勢可以持續(xù)下去,到了 2027 年,Agent 就可以完成完成一個月時長的任務。
而且這個速度還有可能進一步加速,目前可能正處于比指數(shù)增長更快的增長軌跡上。直觀來看,這也是合乎情理,因為 Agent 在完成為期 1 周和 2 周的任務時,所需技能的差距可能比完成 1 年和 2 年的任務時更大。
此外,隨著 AI 能力的提升,AI 在開發(fā)更強大 AI 上的作用也將越來越大,這也可能導致 Agent 能完成的任務長度呈現(xiàn)超指數(shù)級增長。越來越強大的 AI 系統(tǒng)可能會觸發(fā)加速飛輪效應,即 Agent 加速創(chuàng)造更強大 Agent,而這些更強大的 Agent 又進一步加速創(chuàng)造更強大的 Agent。
因此 Agent 的能力可能會迅速飆升,超越任何人在 AI 研究領域的能力,甚至延展到其他或所有領域。這種影響將是革命性的。Agent 能完成的任務長度的增加可能最終成為人類歷史上最重要的趨勢之一。
04.為什么會出現(xiàn) Agent Scaling Law
獨立 AI 研究機構 Forethought 圍繞 AI R&D 話題做了系列研究,這一研究可以解釋 Agent scaling law 出現(xiàn)的原因。研究結果表明, AI 能實現(xiàn)這么快速的進步,背后的動力來自 LLM 硬件和軟件的突破。
硬件:更多算力和更多數(shù)據(jù)
在算法和數(shù)據(jù)沒有變化的情況下,只依靠算力規(guī)模的提升就可以帶來模型能力的增強。例如,GPT-3 本質(zhì)上是 GPT-2 的擴展版本,但由于算力的大幅提升,GPT-3 不僅能夠進行連貫的對話,還能編寫可運行的計算機代碼、進行語言翻譯和創(chuàng)作詩歌,而 GPT-2 在表現(xiàn)上大多是語無倫次的胡言亂語。
而且前沿 AI 系統(tǒng)算力的提升不僅會改進相同任務的表現(xiàn),還可能帶來新能力的涌現(xiàn)。研究人員有兩種方法來增加 AI 系統(tǒng)的算力:
1. 花費更多資金購買更強的計算資源;
2. 開發(fā)出更高效的硬件,使相同成本下的算力更強。
軟件:開發(fā)更好的 AI 模型
“AI 軟件”包括除算力層硬件外的幾乎所有內(nèi)容,比如 AI 技術范式,系統(tǒng)架構,訓練算法,數(shù)據(jù)獲取,參數(shù)調(diào)整,fine-tuning 的方法等等。
AI 軟件進步可以進一步分為兩類:
1. 效率改進,新 AI 系統(tǒng)執(zhí)行與之前 AI 系統(tǒng)大致相同的任務時,計算成本更低;
2. 能力改進,新 AI 系統(tǒng)能夠完成之前系統(tǒng)完全無法做到的任務,或在相同任務上表現(xiàn)得更為出色。
在實踐中,效率改進和能力改進之間的界限有時較為模糊。例如,更高的訓練效率可以訓練出更大的 AI 模型,而更大的模型往往表現(xiàn)出新能力或更好的性能。
AI 軟件進步很難衡量,尤其是能力改進,例如 ChatGPT 通過 GPT-3.5 實現(xiàn)更具信息性的對話,并將其集成到直觀用戶界面中開發(fā)而成的,如何量化 ChatGPT 在與用戶高效對話方面的進步,或良好用戶界面帶來的提升?
相比之下,效率改進比較容易衡量,比如可以比較 AI 系統(tǒng)在達到特定性能水平時所需的算力。
下圖中,LLM 的訓練效率估計值(約 8 個月翻倍)是相對保守的,因為沒有考慮訓練后的改進,而運行效率估計值(約 4 個月翻倍)則顯得相對激進,因為包含了軟件之外的因素。
如果在這兩個估計值之間取均值,可以得出訓練效率和運行效率都具有約 6 個月效率翻倍的時間。
不同分析方式下,AI 效率翻倍所需時間
AI 能力的進步 > 算力成本下降
除了效率提升之外,AI 能力提升也相當顯著,甚至可能比效率提升更重要。
最近 AI 系統(tǒng)的新能力在提升系統(tǒng)實用性方面,遠超已有能力的效率提升。過去 10 年中 AI 經(jīng)濟重要性的增加主要來源于 AI 新能力的出現(xiàn),而不是已有能力在算力要求上變得更低。
比如 LLM 的能力提升,RLHF 使得對 LLM 進行“微調(diào)”成為可能,可以讓其扮演特定角色,而不僅僅是模仿互聯(lián)網(wǎng)文本。此外,LLM 訓練效率的提升也可以轉(zhuǎn)化為能力提升,通過 scaling 使新能力涌現(xiàn)。
LLM 公司可以通過兩種方式將訓練效率提升應用于 LLM:
1. 創(chuàng)建與之前系統(tǒng)性能相當、但速度更快且計算成本更低的 LLM;
2. 創(chuàng)建計算成本相同(或更高)、但能力增強的系統(tǒng)。
大模型公司通常同時進行這兩種嘗試。開發(fā)者通常對(2)更為興奮,并傾向于在流程中整合他們可用的最強模型。但如果效率提升是主要推動力,(1)會引發(fā)更多行業(yè)關注。
05.終局猜想:Agent 開發(fā) Agent
前面提到,當 AI Agent 能力足夠強時,極有可能會出現(xiàn)“Agent 開發(fā) Agent”的現(xiàn)象,這一現(xiàn)象被 Forethought 定義為 ASARA,即 AI Systems for AI R&D Automation,出現(xiàn)一個 AI 系統(tǒng)能夠完全自動化 AI 研發(fā)中涉及的所有任務。
值得注意的是,訓練新 AI 系統(tǒng)所需的算力通常遠大于運行已訓練系統(tǒng)副本所需的算力。這意味著,如果用于訓練 ASARA 的算力被重新分配用于運行,則可以并行運行數(shù)十萬份甚至數(shù)百萬份副本。如果每個副本都能匹配頂尖人類研究者的表現(xiàn),ASARA 的認知總輸出很可能相當于數(shù)百萬名頂尖人類研究者。
目前,全球大約有數(shù)十萬名研究人員從事不同的 AI 軟件研發(fā),但絕大多數(shù)人員并未專注于提升最先進的 AI 能力,AI 研發(fā)能力遠未達到人類潛力的極限。然而隨著 ASARA 的到來,可以想象出一個擁有數(shù)百萬虛擬頂尖研究者的團隊,其中很大一部分可能專注于推進最前沿的能力發(fā)展。
如果當前的 AI 軟件進展速度意味著 AI 效率的翻倍時間約為 6 個月,那么 ASARA 會顯著提升進展速度,F(xiàn)orethought 粗略估計,AI 效率翻倍所需的時間可能會縮短到 1-2 個月。
如果這個循環(huán)完全不需要人類干預,AI 進展速度可能會越來越快,最終達到軟件智能爆炸(Software Intelligence Explosion,SIE),指的是僅由軟件驅(qū)動的反饋循環(huán)在 ASARA 誕生后也能引發(fā)加速的 AI 進步)。
在 SIE 狀態(tài)下,假設硬件投入保持不變,人類研究人員將全部被 ASARA 替代,AI 進步更快,同時 ASARA 自身能力不斷增強。
我們可以構建一個簡化模型,來演示在實現(xiàn) ASARA 之后的增長飛輪,假設總算力保持不變,這個數(shù)學模型將展示兩種情景假設:
1. 軟件研發(fā)的收益遞減:隨著軟件改進變得越來越難,進一步提升變得更具挑戰(zhàn)性;
2. 日益強大的 ASARA 帶來的正反饋:更強大的系統(tǒng)反過來推動更快的進展。
該模型還包含幾個簡化假設:
1. ASARA 可以分解為多個獨立的 AI 研究員,每個 AI 研究員都能夠執(zhí)行軟件研發(fā)中的所有任務;
2. 所有 AI 進展都表現(xiàn)為撰寫論文,每篇論文代表一個增量的進步,因此進展可以通過累計論文數(shù)量來簡單衡量;
3. 所有 AI 研究員的生產(chǎn)力都是相同的,可以簡單表示為每單位時間撰寫的論文數(shù)量;
4. AI 研究員的生產(chǎn)力不會隨著時間變得更高或更低,但可以變得“計算更高效”,即運行每個 AI 研究員所需的算力減少。
假設一開始只有 1 個 AI 研究員,AI 研究員的生產(chǎn)力為每月 1 篇論文,并且在撰寫了 2 篇論文后,計算效率可以翻倍,即 2 個月后,相同的硬件下可以容納 2 個 AI 研究員,每個研究員每月可以撰寫 1 篇論文,因此總生產(chǎn)力是每月 2 篇論文。
但由于軟件研發(fā)的收益遞減,下一次效率翻倍所需的論文數(shù)量會增加——假設增加 3 倍,需要 6 篇論文。所以有了 2 個 AI 研究員之后,這兩個人撰寫 6 篇論文,即 3 個月時間,才能實現(xiàn)第二次效率翻倍。
到第 3 個月,在這 2 名研究員完成 6 篇論文撰寫后完成了第二次效率升級,每個人每月可以撰寫 3 篇論文。此時,硬件能力進步允許容納 4 個 AI 研究員。與此同時,第 3 次效率翻倍所需的論文數(shù)量會更高——假設再次增加 3 倍,變?yōu)?18 篇論文。有了 4 個 AI 研究員后翻倍將需要 4.5 個月。
在這種情況下,每次效率翻倍所需的時間越來越長:第一次需要 2 個月,第二次 3 個月,第三次 4.5 個月。
? 情景假設 2:ASARA 飛輪帶來的正反饋
同樣假設最初只有 1 個 AI 研究員,每月能撰寫 1 篇論文,第一次效率翻倍需要撰寫 2 篇論文。而第二次效率翻倍仍然需要比第一次更多的論文,即軟件研發(fā)仍然存在收益遞減,但增加的數(shù)量不會很多,假設第二次翻倍需要 3 篇論文,比第一次多 50%。
在有了 2 個 AI 研究員后,每個 AI 研究員每月撰寫 1 篇論文,3 篇論文可以在 1.5 個月內(nèi)完成,以此類推,翻倍的速度會越來越快。
如果僅在這個簡化模型的框架內(nèi)進行推測,這意味著在有限的時間內(nèi)將實現(xiàn)無限的進步。
總而言之,在軟件研發(fā)的收益遞減時,每次效率翻倍所需的論文數(shù)量比上一次增加超過一倍(例如,從 2 → 6 → 18),這意味著 AI 進展變得更難的速度超過了 AI 研究員增長的速度。
而在 ASARA 帶來的飛輪中,每次效率翻倍所需的論文數(shù)量比上一次增加不到一倍(例如,從 2 → 3),這意味著 AI 研究員增長的速度超越了效率翻倍變難的速度。
如果每次效率翻倍所需的論文數(shù)量恰好翻倍,那么每次效率翻倍仍然需要 2 個月(例如,2 個 AI 研究員需要完成 4 篇論文,4 個 AI 研究員需要完成 8 篇論文,依此類推)。
若在模型中不僅關注效率改進,還關注能力改進時,當能力改進使得 AI 的輸出增加到等同于效率翻倍的程度時,就稱該能力改進使 AI 軟件能力翻倍。
Forethought 用軟件研發(fā)回報率 r 來衡量進一步改進 AI 軟件的困難程度,r 表示在 AI 軟件研發(fā)累計工作量翻倍的情況下,AI 軟件能力翻倍的次數(shù)。r 值越低,表示改進變得越困難。
r 值設定如下:
- 當 r=1 時,會出現(xiàn)持續(xù)的指數(shù)增長,每次軟件能力翻倍都需要 2 倍的研究投入。
- 當 r<1 時,會出現(xiàn)進展變慢的現(xiàn)象,每次軟件翻倍都需要超過 2 倍的研究投入。
- 當 r>1 時,對應出現(xiàn) SIE,每次軟件翻倍所需的研究投入少于上一次的 2 倍。
假設在 ASARA 首次開發(fā)時,軟件翻倍時間縮短至 1 個月。
如果 r = 0.7,每次 AI 軟件能力翻倍所需的時間將比上次多 35%,這意味著第二次軟件能力翻倍將在 41 天后發(fā)生,第三次翻倍將在 55 天后發(fā)生,第四次翻倍將在 74 天后發(fā)生,第五次翻倍將在 100 天后發(fā)生。這將導致在不到一年的時間里,AI 軟件能力提高約 30 倍,且隨后幾年的進展會顯著放緩。
這個進展下的年度增長率可能與當前 AI 系統(tǒng)的提升速度相似,盡管當前 AI 系統(tǒng)的提升不僅包括軟件進展,還包括硬件進展和硬件支出的增加。
如果 r = 3,那么每次翻倍將需要上次的 63% 的時間,意味著接下來的幾次翻倍將分別需要:19 天、12 天、7.6 天、4.8 天,依此類推。
持續(xù)的指數(shù)增長可能顯得不太可信,因為 r 必須恰好為 1,但有可能是因為人類會采取措施,來維持在這個微妙的平衡點上,比如人類可能會在希望進展“加速”和進展“稍緩”之間搖擺不定;人類可能會有意識地制定政策,期望能夠?qū)崿F(xiàn) AI 系統(tǒng)更平穩(wěn)的能力增長。
因此,由上述討論可知,是否會發(fā)生 SIE 完全取決于 r 是否大于 1。
有一個值得討論的問題是:現(xiàn)實世界中,軟件研發(fā)回報率是大于 1 還是小于 1?
雖然上述模型是針對 ASARA 場景,但在沒有達到 ASARA 的當下也適用。在當前環(huán)境下,r 表示的是,每次人類的研發(fā)累計工作量翻倍時,AI 軟件能力翻倍的次數(shù)。因此可以通過測量當前人類軟件研發(fā)累計工作量的增長,并將這一增長與 AI 軟件能力的增長關聯(lián)起來,來估算 r 的值。
Forethought 研究了圖像識別、LLM、AI 算法效率等領域,并考慮到 AI 能力提升,以及軟件改進的乘法效應,即訓練算法的改進與后期的微調(diào)、搭建框架等技術是乘法性相互作用的。Forethought 表示人類軟件研發(fā)累計工作的翻倍將導致 AI 軟件能力的若干次翻倍,猜測 r 的最佳可能值在 1-4 之間。
這個結果實際上將軟件的進展與硬件的進展放在了類似的基礎上。Tom Davidson 曾估算了硬件的 r 值,發(fā)現(xiàn)歷史上 r 值大約為 7,而對于 AI 芯片(特別是 GPU),從 2006 年到 2022 年,r 值約為 5,即每次研發(fā)的投入翻倍,計算成本會降低了 5-7 倍。雖然硬件在過去幾十年中的迅速發(fā)展是廣為人知的,但不太為人所知的是,軟件進展可能也以類似的速度增長。
然而,當前的 r 值在長期內(nèi)預計是不可持續(xù)的。對于固定數(shù)量的硬件,AI 能力的實現(xiàn)存在根本性的物理限制,隨著我們接近這個極限,軟件進展可能會放緩。
但沒有充分的理由認為這一極限會僅略高于第一個 ASARA 的水平,第一個 ASARA 可以被認為是第一個在相關認知領域內(nèi)替代人類工作者的系統(tǒng)。人類可能不是最智能的生命形式,而僅僅是地球上第一個足夠聰明,可以從事科學和工程等活動的生命形式。人類在認知屬性上的范圍是廣泛的,人類仍然在通過人口增長、專業(yè)化以及各種文化發(fā)展中獲益。
此外,ASARA 很可能會使用比人類大腦在發(fā)展過程中所用的“計算量”更多的算力進行訓練,這表明在訓練 ASARA 以匹配人類學習方面仍有顯著的效率提升空間。
因此,盡管目前 r 可能大于 1,但最終會下降——在基本限制下,r 將需要降到 0。這意味著無論投入多少研發(fā),進展都將停止。但目前尚不清楚隨著我們接近極限,r 將如何隨時間下降。盡管如此,離這些限制越遠,r 仍然大于 1 的可能性越大,發(fā)生 SIE 的機會也越大。
還可以注意到,若我們越早達到 ASARA,因為 r 在那時未必已經(jīng)降到 1,所以越可能發(fā)生 SIE。因此,較短的時間表可能會增加 SIE 的可能性。
06.軟件智能爆炸的瓶頸和解決方案
硬件制約
上述分析都發(fā)生在算力不首先的背景下。也許存在一種可能是,在實現(xiàn)全自動的 Agent 系統(tǒng)的過程中,模型研發(fā)中的作用并不像想象的那樣重要,關鍵的推動因素可能是算力基礎設置的增加。畢竟,硬件可以用于運行模型訓練,更多的硬件意味著更多或更大規(guī)模的模型訓練。如果沒有算力的持續(xù)擴展,也許大部分軟件層的進展也會停滯。
但軟件效率的提升會帶來模型訓練的算力成本降低。如果算法改進使得在筆記本電腦上能夠訓練一個 GPT-3 規(guī)模的 AI 系統(tǒng),那么每個擁有筆記本電腦的研究人員都可以運行自己 GPT-3 規(guī)模的實驗。即使硬件不變,隨著時間的推移,也有可能進行更多實驗,這種效應可能足以維持快速的效率進展。
如果硬件限制確實成為軟件發(fā)展的瓶頸,LLM 公司也可以通過運行更小、更便宜的實驗,并將結論外推到更大規(guī)模的系統(tǒng),來彌補這一限制。之所以認為可以從更小的實驗中進行顯著外推,是因為 LLM 和其他前沿 AI 系統(tǒng)通常在以下兩者之間存在非常明確的關系:用于訓練系統(tǒng)的算力與系統(tǒng)的最終表現(xiàn)。
例如,OpenAI 發(fā)現(xiàn) GPT-4 的某些特性可以從之前少于 GPT-4 算力的訓練中高度預測。如果執(zhí)行軟件研發(fā)的 ASARA 同樣可以通過運行更小的 AI 實驗來推測大規(guī)模訓練的結果,那可能完全可以跳過大規(guī)模的訓練。
ASARA 還可能通過多種途徑顯著提高模型訓練的質(zhì)量、效率和信息價值,比如,在運行實驗之前就消除錯誤和微妙的實驗設計缺陷,更加重視有前景的研究方向,從第一性原理進行更有價值的實驗設計,深入分析每個實驗的結果,將每個實驗的結果與所有其他實驗結果和證據(jù)進行綜合,持續(xù)監(jiān)控實驗,并在獲得重要結果后立即終止實驗等。
因此,AI 軟件研發(fā)可能會轉(zhuǎn)向那些本身就不依賴大規(guī)模實驗的方向,比如微調(diào)、構建和 prompt 等,這些方法的實驗可能仍會帶來實質(zhì)性的進展。
甚至有可能,在強硬件限制和 ASARA 迅速拓展的背景下,AI 領域?qū)囊蕾嚧笥嬎懔康臋C器學習轉(zhuǎn)向新的范式,這種范式可能更少依賴實驗,甚至完全放棄訓練,轉(zhuǎn)向顯式設計所需的 AI 系統(tǒng),類似于 GOFAI(Good Old-Fashioned Artificial Intelligence,泛指用最原始的人工智能的邏輯方法解決小領域的問題)。
換一個角度,即使來自硬件的實驗限制不足以使軟件進展停滯不前,但有這些限制仍然可能比沒有限制的情況下的進展要慢。上述解決方法可能仍然能夠讓 ASARA 在硬件限制下取得實質(zhì)性的進展。
此外,在 SIE 中,邊際回報的遞減可能比歷史數(shù)據(jù)中更陡峭。歷史上,計算資源在增長,因此研究人員可以發(fā)明只在新的計算規(guī)模下有效的算法。但在 SIE 中,這種情況將無法發(fā)生,因為硬件保持不變,限制在固定計算規(guī)模下的算法可能會使邊際回報遞減變得更加陡峭。
考慮到硬件的限制,F(xiàn)orethought 將 r 的最佳猜測估計值減少到 0.5-2,如果 AI 發(fā)展需要大規(guī)模實驗,則估計值較低,如果 prompt 和構建等改進能夠帶來顯著進展,則估計值較高。
訓練新 AI 系統(tǒng)的所需時間較長
在當前的 AI 范式中,最強大的系統(tǒng)通常分為兩個階段進行訓練:一個較長的“預訓練 pre-training”階段和一個較短的“微調(diào) fine-tuning”階段。
對于最強大的系統(tǒng),pre-training 確實可能很長,需要持續(xù)幾個月使用大型數(shù)據(jù)中心。近期 AI 的進展稍微改變了這個局面,因為它們暗示 fine-tuning 在開發(fā)能力方面比傳統(tǒng)認知上的更加重要和持久,盡管目前 fine-tuning 仍然遠短于 pre-training。
無論如何,正是這些長時間的訓練,無論是通過 pre-training、越來越廣泛的 fine-tuning,還是其他尚未開發(fā)的訓練階段,都可能成為 AI 進展的瓶頸,進而減緩 SIE 的發(fā)展。
如果每一代 ASARA 只能創(chuàng)造出比它們自己稍微更聰明一點的系統(tǒng),并且每一代都需要經(jīng)過漫長的訓練過程,那么這可能會極大地抑制進展。
但是,也有幾個原因表明,這類模型訓練可能不會成為進展的瓶頸。進展可能通過其他方法得以維持,例如,專注于 prompt、較短的 fine-tuning。也可能開發(fā)出其他方法,使得能夠在不重新訓練的情況下繼續(xù)發(fā)展,例如通過新穎的方式修改已有系統(tǒng)的部分功能。
此外,如前文所述,AI 范式的轉(zhuǎn)變可能會更清晰地繞過這些障礙。如果訓練新的模型成為實現(xiàn) ASARA 的瓶頸,那么這種瓶頸將為該領域?qū)ふ移渌娲椒ㄌ峁┚薮蟮募睢<幢銖牧汩_始訓練新系統(tǒng)仍然是必要的,仍然可以合理地認為 SIE 可能發(fā)生,因為訓練新系統(tǒng)的速度有可能比現(xiàn)在更快。算法改進可能使得訓練新系統(tǒng)的效率更高,從而每次訓練所需的時間減少。
如果 ASARA 的訓練時間最初為 2 個月,然后通過算法改進提高了 30 倍的效率,那么這些效率的提升不僅可以用來訓練更強大的系統(tǒng),還可以用來訓練既更強大又計算負擔較輕的系統(tǒng)。
只要每次訓練的時間能比上一次稍微快一些,訓練時間最終可能趨近于零,AI 進展也可能變得極為快速。因此,訓練新 AI 系統(tǒng)的瓶頸可能會延緩而不是阻止 SIE 的發(fā)生。
值得注意的是,訓練 AI 系統(tǒng)所需的時間并不是當前 AI 范式固有的不可改變的屬性,而是各種相互競爭的因素之間的妥協(xié)——包括盡早完成訓練的價值、算力的價格、算力的價格隨時間變化的預期等。SIE 發(fā)生時,平衡將大幅傾向于盡早完成訓練(因為進展非常迅速,系統(tǒng)可能會很快過時),這可能會導致訓練時間大大縮短。
訓練新 AI 系統(tǒng)的所需時間仍然是一個懸而未決的問題。盡管上面提到的可能性存在,但也有可能所有不涉及長時間訓練的進展方法最終要么完全失敗,要么無法維持足夠的進展,因此,要保持 r>1,保持隨著研發(fā)投入的增加,軟件性能需要能不斷翻倍(性能翻倍需要更多的訓練時間),可能會妨礙后續(xù)的訓練時間變得越來越短。
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!