LLM 進(jìn)化分岔口:多模態(tài)、成本、代碼推理

0 評論 2873 瀏覽 2 收藏 44 分鐘

在人工智能領(lǐng)域,大型語言模型(LLM)的進(jìn)化正處在一個關(guān)鍵的分岔口,其中多模態(tài)能力、成本效率和代碼推理能力是未來發(fā)展的三大核心方向。文章深入分析了OpenAI和Anthropic這兩家在LLM領(lǐng)域處于領(lǐng)先地位的公司,它們在2024年的技術(shù)動態(tài)、產(chǎn)品發(fā)展和人才變動,揭示了它們在LLM進(jìn)化路徑上的不同選擇和戰(zhàn)略重點。

頭部模型的新一代模型的是市場觀測、理解 LLM 走向的風(fēng)向標(biāo)。

即將發(fā)布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 無疑是 AGI 下半場最關(guān)鍵的事件。

本篇研究是拾象團(tuán)隊對 OpenAI 和 Anthropic 在 2024 年至今重要技術(shù)動作、產(chǎn)品投入、團(tuán)隊變化的總結(jié)和分析,我們希望從這些關(guān)鍵細(xì)節(jié)來理解頭部模型公司的核心主線,更深入地把握 LLM 的進(jìn)化方向。

在這個過程中,我們很明顯能感受到,雖然 OpenAI 和 Anthropic 的新一代模型都選擇了 self-play RL 技術(shù)路線,但兩家公司其實在 LLM 接下來要怎么進(jìn)化的問題上出現(xiàn)了分叉:

  • 對于 OpenAI 來說,模型成本下降和多模態(tài)能力的提升是最重要的主線,4o-mini 的發(fā)布就比最早的 GPT-4 成本下降了 150 倍,并且 OpenAI 也在積極地嘗試新的產(chǎn)品方向;
  • Anthropic 的關(guān)注點顯然放在了推理能力上,尤其是在代碼生成能力上下功夫。在模型產(chǎn)品線上,也能感受到 Anthropic 明確的取舍,多模態(tài)不是它們的未來重心,尤其視頻生成是一定不會在產(chǎn)品中加入的。

OpenAI 和 Anthropic 之間的差異既和創(chuàng)始人風(fēng)格、團(tuán)隊技術(shù)審美、商業(yè) roadmap 等因素相關(guān),也是 LLM 領(lǐng)域各派聲音的集中呈現(xiàn)。

本系列會保持半年一次的更新頻率,希望為市場理解 LLM 帶來方向性啟發(fā)。

01. 模型更新

OpenAI

主線 1:成本下降

LLM 大模型的成本下降趨勢是非常明確的,在 GPT-3.5 和 GPT-4 的模型定價上都體現(xiàn)得尤其明顯。

4o 的模型設(shè)計初衷除了大家熟知的多模態(tài)之外,就是為了推理成本優(yōu)化而設(shè)計的。在這基礎(chǔ)上,甚至 4o-mini 可以再下降 33 倍的成本,這個成本下降幅度是非常驚人的。

我們相信未來隨著時間推進(jìn)和工程 infra 的優(yōu)化,4o 模型可能還有 10 倍的成本下降空間,很多當(dāng)前模型能力下的 use case 都能迎來 ROI 打正的時刻。

同時值得一提的是,OpenAI 推出了新的 batch API 方案:API 不實時返回結(jié)果,而是在未來 24 小時內(nèi)返回結(jié)果,這能使 API 價格打?qū)φ?。這適用于對時間不敏感的大批量任務(wù),可以大量節(jié)省成本。這個方法能降成本是因為目前的實時推理中 long context 和短的會放在一個 batch 中處理浪費很多資源,而降低實時性能夠?qū)⑾?context length 放在一起計算來降低成本。

OpenAI 還沒有推出 Anthropic 使用的 prompt caching,不確定是否已經(jīng)用類似方式進(jìn)行降本了:Claude 在 long context 下可以通過把部分常用 prompt 存在緩存中來節(jié)省 90% 成本,降低 85% latency。這個方法在 RL 技術(shù)路線下會非常有用,因為模型 self-play 探索時會有大量重復(fù) context。

另外 4o 對多語言數(shù)據(jù)的 tokenizer 效率提升,也能帶來更低的成本。多語種在壓縮過程中的 token 消耗量都顯著降低,例如一句話原本需要 34 個中文 token,現(xiàn)在 24 個就能夠?qū)崿F(xiàn)。

主線 2:多模態(tài)交互能力提升

模型能力角度上,OpenAI 在今年上半年最大的進(jìn)展在多模態(tài)能力上:

理解側(cè)

1)GPT-4o 模型的發(fā)布實現(xiàn)了端到端的多模態(tài)能力,在語音對話和多模態(tài)能力上有明顯提升的同時,降低了成本且沒有降低推理能力。其語音功能至今仍未大面積推出, advanced mode 還在緩慢 roll out 中。

speech-to-text:顯著領(lǐng)先于 Whisper。端到端模型在語音上顯示出了一定的 emergent capability,比如何時能打斷并介入與用戶的對話。等大規(guī)模鋪開后在語音陪伴等場景的 PMF 可能迎來新一波的機(jī)會。

視覺理解:顯著高于其他模型,但沒有出現(xiàn)多模態(tài) unify 帶來的智能涌現(xiàn)。視頻數(shù)據(jù)的信噪比太低,在當(dāng)前架構(gòu)下和文本數(shù)據(jù)放在一起,并沒有帶來顯著的多模態(tài)智能,這是多模態(tài)理解領(lǐng)域上需要解決的問題。

生成側(cè):

a. 在 vision 方面發(fā)布了 Sora 視頻生成模型,Sora 發(fā)布后視頻生成領(lǐng)域的 SOTA 暫時收斂到了 DiT 架構(gòu)。由于 Sora 目前還在 demo 階段,我們預(yù)期下半年會發(fā)布給公眾使用。

b. 4o 模型作為一個端到端生成模型,也在探索用端到端 autoregressive 的方式生成圖片。

Anthropic

主線 1:模型推理能力增強(qiáng)

2024 年上半年,Anthropic 在 Claude 模型系列上取得了顯著進(jìn)展。3 月 4 日,公司推出了 Claude 3 系列,包括 Opus、Sonnet 和 Haiku 三個版本,每個版本都針對不同的應(yīng)用場景和需求進(jìn)行了優(yōu)化。President Daniela Amodei 在最近的一次公開分享中提到,他們設(shè)計時的想法是 :

? Opus 為復(fù)雜推理、研究場景設(shè)計。Opus 是第一個超越 GPT-4 的模型,但定價偏高性價比差。

? Sonnet 是為企業(yè)常用需求如 RAG 設(shè)計的,可能是因此第一個做了 3.5 版本。

? Haiku 是為實時性強(qiáng)的客服等對話場景設(shè)計(由此推測,他們也可能在 voice 領(lǐng)域推出端到端模型)。

6 月 21 日 Anthropic 又發(fā)布了 Claude 3.5 Sonnet,進(jìn)一步提升了模型的性能和能力。Anthropic 還預(yù)告將在 2024 年晚些時候推出 Claude 3.5 系列,包括 Haiku 和 Opus 版本。Opus 版本是最值得期待的,看其是否能夠大幅超越 GPT-4 的推理水平。

在性能方面,Claude 模型取得了很大進(jìn)步。

Claude 3.5 Sonnet 在很多領(lǐng)域的表現(xiàn)超越了 GPT-4,特別是在研究生級推理和編程能力方面。直到 9 月,其他所有模型的更新都無法在 Coding 和復(fù)雜推理能力上超越 Sonnet 3.5。

其 coding 能力提升也帶來了一系列 AI coding 產(chǎn)品的實現(xiàn):Cursor 作為 IDE 的開發(fā)體驗一下子流暢了很多,甚至 Websim 這樣在上半年看起來是 toy project 的產(chǎn)品在現(xiàn)在也有了不錯的效果。背后原因都是 Claude Sonnet 3.5 能生成上百行的可靠代碼,而之前的 SOTA 模型只能生成 20 行左右。

模型的其他維度能力也在各個 use case 得到了全面擴(kuò)展。Claude 3.5 Sonnet 的推理速度是 Claude 3 Opus 的兩倍,可以處理 200K token 的上下文窗口,相當(dāng)于約 500 頁文檔的內(nèi)容。多模態(tài)能力也得到顯著增強(qiáng),特別是在視覺理解方面,包括圖表解讀和從不完美圖像中準(zhǔn)確轉(zhuǎn)錄文本的能力。

主線 2:模型擬人能力增強(qiáng)

Anthropic 首次在 Claude 3 系列中引入了”性格訓(xùn)練”(Character Training),這項能力是在 post training 加入的。這項創(chuàng)新旨在賦予模型良好的性格特征,通過生成數(shù)據(jù)和自我排序來內(nèi)化這些特征。這不僅提高了模型的吸引力和互動性,用戶反饋也表明與模型的對話變得更加有趣。

訓(xùn)練方式:首先要求 Claude 生成各種與特定性格特征相關(guān)的人類消息——例如,關(guān)于價值觀的問題或關(guān)于 Claude 自身的問題。然后向 Claude 展示這些性格特征,并讓它針對每條消息產(chǎn)生符合其性格的不同回應(yīng)。之后,Claude 會根據(jù)每個回應(yīng)與其性格的契合程度對這些回答進(jìn)行排序。通過對這些回答的排序訓(xùn)練一個偏好模型,我們可以教導(dǎo) Claude 內(nèi)化其性格特征,而無需人類的交互或反饋。

盡管這個訓(xùn)練流程僅使用 Claude 自身生成的合成數(shù)據(jù),但構(gòu)建和調(diào)整這些特征仍然是一個相對手動的過程,需要人類研究人員密切檢查每個特征如何改變模型的行為。

這個方向結(jié)合他們的 interpretability 的研究,可以看到他們在模型的可控性上下了很多功夫。

用戶評價

我們也收集了一系列用戶對 4o 模型和 Claude 3.5 的用戶使用評價:

GPT-4o 優(yōu)勢:

  • 速度快,響應(yīng)迅速:在 iOS 應(yīng)用中使用 GPT-4o 時,幾乎感覺不到延遲,能夠?qū)崿F(xiàn)類似實時對話的體驗。
  • 多模態(tài)能力強(qiáng):GPT-4o 有更完備的語音對話和圖片識別能力,且語音識別準(zhǔn)確度、對話智能度很高,還有創(chuàng)作圖片的能力。
  • 在一般對話和簡單任務(wù)中表現(xiàn)良好。
  • ROI 高:用戶普遍表示,對于需要頻繁使用 AI 但預(yù)算有限的情況,GPT-4o 提供了很好的性價比。

GPT-4o 劣勢:

  • 在復(fù)雜推理、數(shù)學(xué)和編程任務(wù)中表現(xiàn)不佳 :例如有用戶提到在使用 GPT-4o 編寫 C++的類型定義時,4o 不能特別好的理解復(fù)雜需求。
  • 輸出冗長,常忽視簡潔指令:即使用戶明確要求簡短回答,GPT-4o 仍傾向于提供詳細(xì)解釋,有時甚至重寫整個段落/代碼塊而非只給出必要修改。
  • 在專業(yè)問題下不如早期的 GPT-4 版本:一些用戶提到在處理特定領(lǐng)域的專業(yè)問題時,GPT-4o 的表現(xiàn)不如早期的 GPT-4 模型,可能和其模型進(jìn)行量化降成本有關(guān)。

Claude 3.5 Sonnet 優(yōu)勢:

  • 在復(fù)雜推理、長文本處理和編程方面表現(xiàn)優(yōu)異:多位用戶提到 Claude 在處理 C#和 C++等編程語言的復(fù)雜任務(wù)時表現(xiàn)出色,能夠準(zhǔn)確理解和執(zhí)行復(fù)雜指令。
  • 更好地遵循復(fù)雜指令:用戶發(fā)現(xiàn) Claude 能夠準(zhǔn)確執(zhí)行多步驟任務(wù),如在學(xué)術(shù)研究中按特定格式生成報告并同時進(jìn)行數(shù)據(jù)分析。
  • 創(chuàng)意寫作和人性化交流能力強(qiáng) 用戶表示 Claude 能夠更好地捕捉和模仿特定的寫作風(fēng)格,產(chǎn)生的內(nèi)容往往更貼近人類作者的水平。
  • 在 C#、C++等特定編程語言中表現(xiàn)出色:一位用戶提到,在使用 Claude 重寫 C#方法時,生成的代碼通常可以直接使用。

Claude 3.5 Sonnet 劣勢:

  • 模型外部能力局限:Claude 無法生成圖像,沒有實時網(wǎng)絡(luò)搜索功能,也沒有語音交互的能力。
  • 某些用戶反映最近性能有所下降:有用戶提到 Claude 在某些特定領(lǐng)域的回答質(zhì)量不如以前準(zhǔn)確,可能是由于成本優(yōu)化導(dǎo)致的。

02. 產(chǎn)品進(jìn)展

OpenAI

用戶數(shù)據(jù)上漲:多模態(tài)帶動交互創(chuàng)新,4o 讓產(chǎn)品再度擴(kuò)圈。

1)ChatGPT 用量隨 4o 的發(fā)布大幅增長:

a. OpenAI 的訪問量自 2023 年 5 月達(dá)到峰值后,因為暑假開始下降,后續(xù)變進(jìn)入波動,直到今年 5 月 GPT-4o  發(fā)布后再次飆升,在 2024 年 6 月的訪問量達(dá)到 2.9 億次,比 2024 年 5 月增長了 15.6%,而 2024 年 5 月則比歷史最高值增長了 40%(2023 年 5 月),GPT-4o 對用戶量的拉動是極為明顯的。

b. 去年訪問量在夏季下降,今年沒有出現(xiàn)這種趨勢,主要得益于 GPT-4o 推出,OpenAI 能夠持續(xù)保留和吸引新用戶。(一定程度上也得益于 GPT-4o 多模態(tài)能力使得 ChatGPT 進(jìn)一步向生活場景拓展,而非僅僅是一個效率工作產(chǎn)品)。但節(jié)日趨勢在其他產(chǎn)品上還是明顯存在的:C.AI 流量上升,Perplexity 流量下降。

c. 截止到今年 6 月的 Web MAU 約為 2.3 億,移動端 DAU 約為 320 萬。

2)放在搜索引擎語境下,ChatGPT 的用量持續(xù)超越 Bing 和 Perplexity,與 Google 仍有量級上的差距,但開始逐漸蠶食傳統(tǒng)搜索引擎的心智。

盡管 Google 整體搜索份額還比較穩(wěn)定在 91%+,但其桌面端被拿份額的趨勢比較明顯,美國和全球數(shù)據(jù)都是這個趨勢。ISI 發(fā)布了一份報告介紹他們對 1000 多名消費者的調(diào)查結(jié)果。他們注意到,從6月到8月,Google 作為首選搜索引擎的份額從80%下降到74%,而ChatGPT的份額從1%增加到8%。

? 6 月份 ChatGPT / Perplexity 流量略降,Claude 有個跳漲,和 Sonnet 3.5 模型能力顯著提升有關(guān)。

3)對 AI 產(chǎn)品流量和商業(yè)模式的思考

a. 在 AI 時代流量最大的產(chǎn)品不一定產(chǎn)生最大的價值,完成任務(wù)的難度更重要。這個觀點的前提是廣告模式不是 AI 時代最后的 business model。

b. 大模型公司的商業(yè)模式不比移動互聯(lián)網(wǎng)簡單,更像傳統(tǒng)零售的庫存模式:資源都分配給訓(xùn)練用戶用不上產(chǎn)品,那就是庫存積壓;資源給推理太多模型能力跟不上,是庫存短缺。

c. 目前看到的大模型公司商業(yè)模式,要明顯比互聯(lián)網(wǎng)廣告和軟件訂閱的商業(yè)模式差很多。后兩者最重要的特征是 ① 提供服務(wù)的邊際成本幾乎是零,或是持續(xù)顯著下降。② 黏性/用戶留存極強(qiáng)。意味著企業(yè)只要投入建立平臺/軟件產(chǎn)品及獲客,后續(xù)收入的利潤率極高,且持續(xù)性很強(qiáng)。大模型無論是 API 還是訂閱制,定價端很難提價,而隨著模型能力增強(qiáng),用戶query/任務(wù)會更加復(fù)雜,服務(wù)用戶需求的成本還可能是上升的。

從生產(chǎn)力助手到 Agent 探索:

feature 更新和收購并行

根據(jù) chatgpt 今年 1 月-7 月的產(chǎn)品升級,可以發(fā)現(xiàn)如下幾個趨勢,他們是明顯在從生產(chǎn)力助手往 agent 方向在探索:

? 新的交互模式已經(jīng)有了雛形,在日常生活中的應(yīng)用場景大大擴(kuò)寬:通過對多模態(tài)能力的不斷強(qiáng)化,目前能夠?qū)D片進(jìn)行解讀、翻譯和推薦、實時語音交流、屏幕讀取功能。

? 工作效率產(chǎn)品逐漸完善:針對數(shù)據(jù)分析需求,ChatGPT 新增了與云存儲服務(wù)如 Google Drive 和 Microsoft OneDrive 的直接集成,以及實時表格交互和可定制的圖表功能。

? 在逐步搭建生態(tài)系統(tǒng),盡可能多的平臺整合:與蘋果等大平臺的整合,推出桌面版,提升了在不同操作系統(tǒng)和應(yīng)用中的可用性和用戶接觸點。

? memory 功能加入:目前還只是把文字內(nèi)容總結(jié)成簡單的一個標(biāo)簽放進(jìn) system prompt。下一步結(jié)合 Rockset 的收購可能為外部互聯(lián)網(wǎng)和每個用戶的聊天記錄建立 index,做到更強(qiáng)的個性化。

同時也值得分析一下他們是收購三家公司的價值,和他們實現(xiàn) agent 的愿景高度相關(guān):

1)Rockset(2024 年 6 月收購):

Rockset 是一家專注于實時分析數(shù)據(jù)庫的公司,以其先進(jìn)的數(shù)據(jù)索引和查詢能力而聞名,成立于 2016 年。OpenAI 收購 Rockset 的戰(zhàn)略動機(jī)主要是為了增強(qiáng)其檢索基礎(chǔ)設(shè)施。這將使 OpenAI 能夠提供更強(qiáng)大和高效的數(shù)據(jù)處理能力,特別是在實時搜索和 RAG 上。此次收購預(yù)計將顯著提升 OpenAI 在數(shù)據(jù) retrieval、分析和檢索方面的能力,使其 AI 解決方案更加強(qiáng)大,能更好地響應(yīng)實時數(shù)據(jù)需求。這也增強(qiáng)了 OpenAI 在與其他 AI 模型提供商和全棧生成 AI 平臺競爭時的技術(shù)實力。

此外,未來的 agent 中最關(guān)鍵的工程設(shè)計在于 memory 的設(shè)計,前面這套在 RAG 和 search 的方案也可以用在未來 agent 的記憶機(jī)制上。

2)Multi(原 Remotion,2024 年 6 月收購):

Multi 是一家開發(fā)實時協(xié)作工具的初創(chuàng)公司,允許用戶共享屏幕并在編碼等任務(wù)上協(xié)同工作。OpenAI 收購 Multi 的戰(zhàn)略目的是利用其技術(shù)來增強(qiáng)遠(yuǎn)程協(xié)作能力和 AI 驅(qū)動的內(nèi)容摘要功能。這與 OpenAI 通過 AI 改善團(tuán)隊協(xié)作和生產(chǎn)力的更廣泛目標(biāo)相一致。這次收購的一個重要意義可能是實現(xiàn)未來人與 AI agent 在屏幕前的共同協(xié)作。

3)Global Illumination(2023 年 8 月收購):

Global Illumination 是一家專注于創(chuàng)意工具、基礎(chǔ)設(shè)施和數(shù)字體驗的公司,由來自 Instagram、Facebook、YouTube、Google、Pixar 和 Riot Games 的前關(guān)鍵設(shè)計師創(chuàng)立。收購 Global Illumination 的目的是增強(qiáng) OpenAI 的核心產(chǎn)品,包括 ChatGPT。此外我們也猜想,他們之前的產(chǎn)品也可能適合成為 virtual agent 的進(jìn)行強(qiáng)化學(xué)習(xí)的交互環(huán)境。

Anthropic

交互:Artifact 時軟件生成 task engine 的早期形態(tài)

Artifacts 是我們使用 Claude 產(chǎn)品時會出現(xiàn)的動態(tài) workspace,能把我們需要完成的任務(wù)轉(zhuǎn)換成代碼,并用代碼的方式來實現(xiàn)基礎(chǔ)的任務(wù)。我們可以認(rèn)為它是 OpenAI Code Interpreter 基礎(chǔ)上對 UI/UX 的創(chuàng)新。

Claude 團(tuán)隊給 Artifact 的未來定位是企業(yè)團(tuán)隊將能夠安全地將他們的知識、文檔和正在進(jìn)行的工作集中在一個 Artifact 這個 workspace 中進(jìn)行交互,而 Claude 則根據(jù)需求作為 copilot 對這個workspace 進(jìn)行交互。所以可以認(rèn)為 Artifact 是 Anthropic 團(tuán)隊對下一代 AI-native 協(xié)作平臺和工作流的想象。

在實際使用場景中,現(xiàn)在還是開發(fā)者使用 artifact 制作初步代碼比較多:

? 示例一:一行 prompt 制作日歷 app,artifact 直接呈現(xiàn)出 code 和 UI,不需要自己動手寫基礎(chǔ)代碼

? 示例二:上傳一本書后,邊讀邊通過 artifact 總結(jié)每一頁的內(nèi)容

Agent 探索:

還在 tool use 階段,未來 roadmap 可期

Tool use 能力的提升標(biāo)志著 Anthropic 在 agent 技術(shù)上比較穩(wěn)健的一次進(jìn)步。2024 年 5 月,Anthropic 為 Claude 3 系列模型增加了與外部工具和 API 交互的能力,這一進(jìn)展大大拓展了模型的實用性。這項功能使得 Claude 能夠執(zhí)行更為復(fù)雜和實際的任務(wù),不再局限于純粹的文本生成。用戶只需用自然語言描述他們的需求,Claude 就能智能地選擇合適的工具并執(zhí)行相應(yīng)的操作。這種自然語言接口大大降低了使用門檻,使得即使非技術(shù)背景的用戶也能輕松地利用 AI 的強(qiáng)大能力。

Anthropic 展示的 agent 應(yīng)用場景涵蓋了多個領(lǐng)域,充分體現(xiàn)了其技術(shù)的廣泛適用性和潛力。首先,在數(shù)據(jù)處理方面,Claude 能夠從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化數(shù)據(jù),這對于自動化數(shù)據(jù)錄入和分析具有重要意義。其次,Claude 可以將自然語言請求轉(zhuǎn)換為結(jié)構(gòu)化 API 調(diào)用,這大大簡化了系統(tǒng)間的交互過程。在信息檢索方面,Claude 能夠通過搜索數(shù)據(jù)庫或使用 Web API 來回答問題,提供即時且準(zhǔn)確的信息。對于日常任務(wù)自動化,Claude 可以通過軟件 API 執(zhí)行簡單任務(wù),提高工作效率。

其中最特別的一個例子是 Claude 能夠協(xié)調(diào)多個快速子 agent 來完成細(xì)粒度任務(wù),這是復(fù)雜任務(wù)的分解和并行處理的未來方向。這種階梯式的模型分工方法可能涉及多個專門化的 agent 協(xié)同工作,每個 agent 負(fù)責(zé)特定的任務(wù)或領(lǐng)域。這種架構(gòu)不僅能提高整體系統(tǒng)的效率和靈活性,還能更好地處理復(fù)雜的多步驟任務(wù)。通過讓不同的子代理各司其職,系統(tǒng)可以更有效地利用資源,并且能夠根據(jù)任務(wù)的需求動態(tài)調(diào)整工作流程。

Anthropic 在官網(wǎng)公布了他們的未來方向,其中他們對 agent 的長期規(guī)劃是宏大而全面的:

? 知識融合(結(jié)合多個領(lǐng)域的交叉知識)

? 超越現(xiàn)有訓(xùn)練數(shù)據(jù)、本科生水平的知識推理

? 自主執(zhí)行端到端科研項目

? 提出新假設(shè)和設(shè)計的能力

? 隱性知識(只能通過在實驗室中的學(xué)徒制獲得的那種知識)

? 需要做出連續(xù)決策才能實現(xiàn)的 long horizon task

? 自動化數(shù)據(jù)分析

這些能力的實現(xiàn)都會和我們期待的 agent 有著方向上的匯合。仔細(xì)看會發(fā)現(xiàn) Anthropic 對 AI 的期待很多都落在軟件和科學(xué)發(fā)現(xiàn)上。

03. 人才更新

OpenAI

OpenAI 依舊保持快速增長狀態(tài),已經(jīng)從純粹的 AI Lab 演進(jìn)至更加工程、產(chǎn)品、收入導(dǎo)向的公司。公司目前有 400 名以上的 Researcher,超過 1200 位非研究類員工,包含工程、銷售、產(chǎn)品、后臺支持等,對比 2023 的 770 人增加近乎一倍。

從招聘側(cè)重點看,近三個月,有 460 人新加入 OpenAI,其中 Member of Technical Staff 依舊占主要,共有 130 人,偏工程類員工占整體 MTS new hire 的 80%。Go-to-market 是招聘數(shù)量第二多的團(tuán)隊,新招聘 46 人。產(chǎn)品新招聘 24 人,其中包括新加入的 CPO Kevin Weil。

離開的關(guān)鍵人才

? Ilya 于 2024 年 5 月與 SuperAlignment Co-lead Jan Leike 接連離職。Ilya 在離職后創(chuàng)辦了 SSI,致力于構(gòu)建安全超級智能 。而 GPT-4 的核心人物 Jakub 接任了 Chief Scientist 的角色。Ilya 對于 OpenAI 是指明方向的靈魂人物。但也有觀點是 Ilya 的遠(yuǎn)見對于 OpenAI 初期帶來很大幫助,但在 OpenAI 已經(jīng)明確遠(yuǎn)期方向后,Illya離開的影響并不大。

? 同樣為 OpenAI 早期靈魂人物的 Greg 會休假至年底后再回歸公司。

? Andrej Karpathy 在加入 OpenAI 一年后于 2024 年 2 月離開 OpenAI,離職后創(chuàng)辦 Eureka Labs 的 AI 課程教育公司,自己擔(dān)任講師幫助學(xué)生更好理解 AI 與 LLM 訓(xùn)練。

? John Schulman 離開 OpenAI 加入 Anthropic。晉升為 alignment lead 前,John 曾是 reinforcement learning team lead,是 RLHF 的開創(chuàng)者,確定了 OpenAI RL 的路線。John 是 OpenAI 創(chuàng)始團(tuán)隊之一,師從 Pieter Abbeel。離開 OpenAI 后,John 加入 Anthropic。

? Jan Leike 跟隨 Ilya 一同離職后加入 Anthropic,繼續(xù)負(fù)責(zé) Alignment 方向工作。John Schulman 和 Jan Leike 的加入意味著 OpenAI 的研究路線圖對于 Anthropic 團(tuán)隊幾乎是一張明牌。

? Peter Deng 作為 Product VP 離開 OpenAI,Kevin Weil 作為 OpenAI 新加入的 CPO 繼續(xù)領(lǐng)導(dǎo) OpenAI 的產(chǎn)品工作。Kevin 在加入 OpenAI 前為 Meta Diem、Instagram 的 VP of product,在 Instagram 任職期間幫助 Instagram 在與 Snap 競爭階段獲得優(yōu)勢。從 Peter 的離職也能感受到 OpenAI 對新產(chǎn)品開發(fā)落地的激進(jìn)程度。

? Aleksander Madry 于一年前從 MIT 教職暫時離開,加入 OpenAI 創(chuàng)辦 Preparedness 團(tuán)隊,目標(biāo)是通過理論研究幫助 OpenAI 提前控制可能發(fā)生的重大風(fēng)險。Aleksander 于 2024 年 7 月離開,接任者為 Joaquin Qui?onero Candela,加入 OpenAI 半年時間,先前在 Meta 帶領(lǐng) Responsible AI 團(tuán)隊近九年。

? Jeffrey Wu 是 GPT- 2 的核心貢獻(xiàn)者,參與了 GPT 的可解釋性、可拓展監(jiān)督方向的工作。也作為核心參與了 InstructGPT 這一 RLHF 的重要項目。Jeffrey 于 OpenAI 任職 6 年,于 2024 年 7 月離職,加入 Anthropic。

? Yuri Burda 是 OpenAI reasoning team 的創(chuàng)始成員之一,負(fù)責(zé) OpenAI 的數(shù)學(xué)方向研究,并于早期項目:Dota、Codex 中有核心貢獻(xiàn)。離開 OpenAI 后 Yuri 加入 Anthropic。

值得關(guān)注的新團(tuán)隊和崗位

我們也觀察到 OpenAI 出現(xiàn)了一些新的小組:

1)Solution Architect

在 Success Team 下新增了 Solutions Architect 團(tuán)隊,隸屬于 Success Team 下。目前整體團(tuán)隊大約 20 人,均為一年內(nèi)加入 OpenAI,對 Enterprise 提供整體部署解決方案。Solutions Architect 團(tuán)隊源于 OpenAI 的策略調(diào)整:OpenAI 為了防御 Azure 捆綁銷售策略下的折扣定價,承諾可以為大客戶根據(jù)需求定制軟件。

2)集群硬件

OpenAI 從 0 到 1 搭建了新的硬件團(tuán)隊。從團(tuán)隊配置看,更像是計劃搭建數(shù)據(jù)中心集群所需要的人才。目前硬件團(tuán)隊還是一個不到 10 人的小團(tuán)隊,由 Richard Ho 帶領(lǐng)。Richard 先前于 Google 任職近十年,是 Google TPU 的 Senior Engineer Director。先前有報告提及 OpenAI 至少要等到 2025 年才可以自己開發(fā)芯片,并且目前在與博通商討合作設(shè)計的形式,Richard 做為 Google TPU 的負(fù)責(zé)人,在 OpenAI 的定位會是 lead 起 co-design 任務(wù)的角色。

Richard 團(tuán)隊內(nèi),Reza Khiabani 先前于 Tesla Dojo、Google TPU 負(fù)責(zé)數(shù)據(jù)中心液冷方向工作。Xin Li 先前于 Google 負(fù)責(zé)數(shù)據(jù)中心電源工作。

3)投資了 Opal 團(tuán)隊

此外,消費硬件層面,OpenAI 于 2024 年 8 月投資了 Opal,有可能在之后一起合作 AI 硬件。Opal 的產(chǎn)品為高清攝像頭,并且十分重視設(shè)計。

Opal 于 2020 年成立,是一個 15 人的小團(tuán)隊。創(chuàng)始團(tuán)隊為 Uber 背景。CEO Veeraj Chugh 在創(chuàng)辦 Opal 前于 Uber 任職 3 年,先后負(fù)責(zé) Uber Freight、Uber New Mobility 的產(chǎn)品運營工作。Co-founder Stefan Sohlstrom 是設(shè)計背景出身,2014 年作為第 5 號員工加入 Plaid,擔(dān)任 Plaid 的 Head of Design。2017 年開始于 Uber Freight 從設(shè)計職責(zé)轉(zhuǎn)換成產(chǎn)品經(jīng)理,成為 Uber Freight Shipper Platform 的產(chǎn)品 Head。

4)Model Behavior scientist

對于 Model Behavior 研究人員的招募可能揭示 OpenAI 希望增強(qiáng)模型的可控性并且希望能夠發(fā)展新的交互方式,同時提升模型的創(chuàng)造能力。

5)mid-training scientist

Mid-training 已經(jīng)被正式定義為一個新的訓(xùn)練階段。其主要環(huán)節(jié)可能包括一些比較接近模型基本能力的 alignment,與 human feedback 離得相對遠(yuǎn)、更靠前。

Anthropic

2024 年以來,公司人數(shù)從 300 人增加至 500 人左右。2024 起,公司招聘共 180 名新的 Member of Technical Staf,使 Anthropic 整體 Member of Technical 數(shù)量達(dá)到約 260 人,其中 90 名 Researcher,210 名 Engineer。Anthropic 的第二大招聘重心為產(chǎn)品團(tuán)隊,2024 年前,Anthropic 的產(chǎn)品團(tuán)隊共 10 人,而今年已經(jīng)是接近 30 名,包含產(chǎn)品經(jīng)理、Product Partnerships / Marketing 相關(guān)員工的團(tuán)隊。

Anthropic 和 OpenAI 相比更看重 Alignment、可解釋性、AI 社會影響三個方向研究,也是 Anthropic 官網(wǎng)上 Research 部分的三個主要構(gòu)成部分。

可解釋性團(tuán)隊由 Shan Carter 帶領(lǐng),現(xiàn)已經(jīng)是 20 余人的團(tuán)隊。Shan 先前于 OpenAI、Google Research 工作,主要負(fù)責(zé)可解釋性方向研究,曾與 Co-founder Chris Olah 于 Google 時參與 Google 重要可解釋性研究:The building blocks of interpretability。

可解釋性團(tuán)隊在 Claude3 發(fā)布后發(fā)了一篇新論文:Scaling Monosemanticity:  Extracting Interpretable Features from Claude 3 Sonnet,突破了模型的透明度并且建立了新解決黑盒問題的機(jī)制。

除了前面提到的幾位從 OpenAI 離職的幾位早期重要 researchers 之外,還有這樣幾位重要 OpenAI / DeepMind 出身的重要科學(xué)家加入:

? Pavel Izmailov 自 2023 年 6 月加入 OpenAI,工作一年后離開加入 Anthropic。于 OpenAI 期間 Pavel 是 superalignment 的成員,加入 Anthropic 也有大概率與 Jan 繼續(xù)合作 alignment 方向工作。

? Steven Bills 于 2022 年 3 月加入 OpenAI,是 superalignment 團(tuán)隊的成員,參與了 OpenAI 發(fā)布 GPT 后的可解釋性研究:Language models can explain neurons in language models。

? David Choi:David 于 2017 年至 2023 年 12 月于 Deepmind 擔(dān)任 Staff Research Engineer。先前是 Deepmind 的 AlphaCode Co-lead,是 Deepmind 在 2022 年時的核心代碼生成模型。David 在 agent 方向的研究可以追溯至 2019 年與 xAI 的 Igor 共為一作的 AlphaStar 論文。

? Jascha Sohl-Dickstein:Diffusion model 核心一作,曾是 Google 的首席科學(xué)家。于 2024 年 1 月加入 Anthropic,此外,Jascha 曾發(fā)布了 Score-based SDE,構(gòu)建了生成 Diffusion 模型理論的框架。

Anthropic 產(chǎn)品團(tuán)隊最大的更新是新 CPO 的加入。Mike Krieger 原先是 Instagram 的 Co-founder & CTO,經(jīng)歷了在 Instagram 被收購后從只有 6 位全棧工程師成長到包含 300 位工程師的 full function 工程團(tuán)隊的過程。Mike 于 2021 年時與 Instagram CEO Kevin 開始做 AI 新聞推送創(chuàng)業(yè) ARTIFACT,于 2024 年 5 月停止項目,加入 Anthropic。Mike 本身的經(jīng)歷和 Anthropic 經(jīng)歷了只有 80+人的小團(tuán)隊,但創(chuàng)造出了 SOTA 模型,之后迅速擴(kuò)張的過程非常相符。加入 Anthropic 后 Mike 帶領(lǐng) Claude APP,以及企業(yè)服務(wù)的產(chǎn)品工程、管理、設(shè)計工作。

Anthropic 的產(chǎn)品團(tuán)隊自 2024 年也快速擴(kuò)張,目前 30 位產(chǎn)品成員大多數(shù)來自于 Stripe、Google、AWS 三家誕生了出色的 enterprise 產(chǎn)品的公司。

Artifacts

Artifacts 是 Mike 加入 Anthropic 后負(fù)責(zé)的新產(chǎn)品,外部對 Artifacts 的評價是“又懂模型、又懂產(chǎn)品的人做出的產(chǎn)品”,對比 OpenAI “互聯(lián)網(wǎng)風(fēng)格”的產(chǎn)品會更 AI-native。而 Artifacts 的名字和 Logo,都與 Mike 先前創(chuàng)業(yè)項目 ARTIFACT 高度相似。

Mike 的 Artifact 項目

Artifacts 與 Claude 的 Logo

與 Mike 一同加入的還有先前共創(chuàng) Artifact 的工程師 Justin Bisignano。Justin 2020 年加入 Instagram 團(tuán)隊任安卓工程師,所寫的代碼支持了 20 億用戶。2022 年 7 月加入 Artifact 任職至 2024 年 4 月后加入 Anthropic,負(fù)責(zé) Claude 的產(chǎn)品工程方向工作。

04. 研究更新

OpenAI

Prover-Verifier Games improve legibility of language model outputs

新的訓(xùn)練方法:OpenAI 開發(fā)了一種稱為”Prover-Verifier Games”的新訓(xùn)練方法,旨在平衡模型的性能和可讀性。

解決關(guān)鍵問題:這種方法解決了之前模型在性能和可讀性之間存在的權(quán)衡問題。過去,注重可讀性可能導(dǎo)致幻覺(hallucination),而過度注重正確性則可能降低可讀性。

訓(xùn)練機(jī)制:

? 使用一個強(qiáng)大的模型(prover)和一個較弱的模型(verifier)。

? verifier 經(jīng)過訓(xùn)練,預(yù)測 prover 生成解決方案的正確性。

? prover 被指示扮演”helpful”或”sneaky”角色,分別生成正確或錯誤的高分解決方案。

? 通過多輪訓(xùn)練,verifier 不斷學(xué)習(xí)識別錯誤解決方案,迫使 prover 探索新策略。

意義:

? 通過 multi-agent 分工的方式實現(xiàn),在減少人類直接干預(yù)的情況下,實現(xiàn)對超智能 AI 系統(tǒng)的對齊。

CriticGPT, Finding GPT-4’s mistakes with GPT-4

? 基于 GPT-4 開發(fā)的模型,旨在發(fā)現(xiàn) ChatGPT 代碼輸出中的錯誤。

? 實驗表明,使用 CriticGPT 輔助的人在代碼審查中,60%的情況下表現(xiàn)優(yōu)于沒有輔助的人。

研究意義:

? OpenAI 正在努力將類似 CriticGPT 的模型集成到他們的 RLHF(Reinforcement Learning from Human Feedback)標(biāo)注流程中。

? 這將為他們的訓(xùn)練人員提供明確的 AI 輔助。

局限性和未來發(fā)展方向:

? 目前 CriticGPT 主要針對較短的 ChatGPT 答案進(jìn)行訓(xùn)練。

? 未來需要開發(fā)能夠幫助訓(xùn)練人員理解長期和復(fù)雜任務(wù)的方法,以便監(jiān)督未來的 AI 代理。

? 模型仍存在幻覺問題,有時訓(xùn)練人員會因這些幻覺而做出錯誤標(biāo)注。

? 當(dāng)前研究主要關(guān)注可在一處指出的錯誤,未來需要解決分散在多個部分的錯誤。

? CriticGPT 的輔助能力有限:對于極其復(fù)雜的任務(wù)或響應(yīng),即使是有模型輔助的專家也可能無法正確評估。

長期目標(biāo):

? 開發(fā)能夠處理長文本的能力。

? 最終目標(biāo)是使用這種技術(shù)來監(jiān)督 AI agent 的訓(xùn)練。

Anthropic

Scaling Monosemanticity, Extracting Interpretable Features from Claude 3 Sonnet

? 使用機(jī)器學(xué)習(xí)中“dictionary learning”的方式,并借助訓(xùn)練大模型的 scaling law techniques,將這個技術(shù)沿用到大模型上,從中 isolate 出大模型激活神經(jīng)元的 pattern,解讀模型激活神經(jīng)元的方式。文章中提到探索了幾種能力:

◎ 針對不同 entities(景點如 golden gate,抽象概念如程序 bugs,gender bias),神經(jīng)元被激活,并且是 multilingual 和 multim – modal 的。

◎ 可以根據(jù)激活神經(jīng)元方式的不同,計算特征之間的“distance”,做近鄰計算。

◎ 可以人為改變特征被激活的方式,會直接影響模型生成的答案。也能從中發(fā)現(xiàn)一些模型可能被潛在激活的不好的方向,為之后監(jiān)控這些潛在威脅        提供了工具。

? Anthropic 真正做到了 interpretability 的 scale-up:使用 sparse autoencoder 來做到解讀神經(jīng)網(wǎng)絡(luò)中的 feature。之前主要使用數(shù)學(xué)統(tǒng)計模型無法 scale-up,sparse autoencoder 的稀疏性可以很好的捕捉到一些關(guān)鍵點,其他不關(guān)鍵信息在 vector 中都不會激活。

? 對比 OpenAI 的可解釋性工作:

◎ OpenAI 的研究較為淺層,主要捕捉 LLM 的行為模式;Anthropic 的研究更深入,挖掘到了不同單詞和實體在神經(jīng)元激活上的規(guī)律。

◎ Anthropic 的研究通過干預(yù)可以直接改變模型的輸出結(jié)果,而 OpenAI 的研究主要停留在觀察層面。

這幾篇研究可以看出一些對 RL 方向研究的端倪,也可以發(fā)現(xiàn) Anthropic 團(tuán)隊對可解釋性的追求是更強(qiáng)的,很可能他們未來會給予可解釋性設(shè)計更多的模型可控性feature。我們也期待這些研究能帶來下一波 AI-native use case 的解鎖。

作者:Cage,hanbo

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!