Deep Research 團(tuán)隊:Agent 的終極形態(tài)是所有任務(wù) All-in-one

0 評論 3685 瀏覽 11 收藏 24 分鐘

隨著AI技術(shù)的飛速發(fā)展,Agent(智能體)正在成為未來生產(chǎn)力的核心。OpenAI推出的Deep Research作為其第二個Agent,展示了強(qiáng)大的在線研究能力,能夠在短時間內(nèi)生成全面的報告。本文通過與Deep Research團(tuán)隊的對話,深入探討了該工具的技術(shù)細(xì)節(jié)、產(chǎn)品設(shè)計思路以及未來發(fā)展方向。

三周前,OpenAI 推出了 Deep Research,這是 OpenAI 的第二個 Agent,可以通過搜索多個網(wǎng)站,在 5-30 分鐘內(nèi)完成全面的 online research,并綜合引用輸出詳細(xì)的報告。

本文是 Sequoia Capital 對 OpenAI Deep Research 負(fù)責(zé)人 Isa Fulford 和 Josh Tobin 的專訪編譯整理, 兩位成員詳細(xì)分享了 OpenAI 在構(gòu)建 Deep Research 時的技術(shù)細(xì)節(jié)和產(chǎn)品思路,以及目前他們說觀察到的 use case。

Deep Research 源于 OpenAI 內(nèi)部對模型 long-horizon 任務(wù)的處理能力的探索,團(tuán)隊長期的目標(biāo)是在未來更夠給到用戶一個終極 Agent:網(wǎng)絡(luò)搜索、使用計算機(jī)或完成其他希望 Agent 完成的任務(wù)自然地 All-in-one。

Deep Research 在產(chǎn)品層面也做了專門優(yōu)化,例如,和我們在 DeepSeek 的分析判斷中提到的一樣,Deep Research 也通過清晰的引用和 CoT 來增強(qiáng)用戶信任。此外,團(tuán)隊還設(shè)計出了一個澄清流程(clarification flow),即確保對任務(wù)理解的一致性。Deep Research 在信息查找和梳理上比 AI 搜索和 ChatGPT 都要強(qiáng),但現(xiàn)階段 Deep Research 從已有信息中提煉出新的見解的效果不佳,還不能做出新的科學(xué)發(fā)現(xiàn)。

?? 目錄 ??

01 OpenAI 的第二個 Agent

02 Agent 能力來自模型端到端的訓(xùn)練

03 Deep Research 的優(yōu)勢

04 Deep Research 的使用場景

05 Agent 會在 2025 年嶄露新頭角

01.OpenAI 的第二個 Agent

Deep Research 是一個能夠搜索多個在線網(wǎng)站并生成非常全面報告的 Agent,可以完成人類需要花費(fèi)數(shù)小時才能完成的許多任務(wù)。Deep Research 在 ChatGPT 中運(yùn)行,回答問題的時間大約在 5-30 分鐘之間,因此能夠進(jìn)行更深入的研究,并能比普通 ChatGPT 更詳細(xì)、更加具體地回答問題。之前 OpenAI 已經(jīng)推出了 Operator,Deep Research 是 OpenAI 的第二個 Agent,OpenAI 未來還會發(fā)布更多的 Agents。

1. 起源

大約一年前,OpenAI 內(nèi)部開始采用 reasoning 范式,并想要訓(xùn)練模型能夠在回答之前進(jìn)行思考的這個行為,這個嘗試取得了很大成功。

一開始,OpenAI 將重點領(lǐng)域放在了 Math 和 Science,但發(fā)現(xiàn)這種新的推理模型體系還解鎖了更長時間跨度任務(wù)的處理能力,即涉及到了 Agent 的能力。

與此同時, OpenAI 意識到,很多任務(wù)的完成需要大量的 online research 或外部 context,需要有很強(qiáng)的推理能力,以及對信息來源的辨別能力,而且必須具備一定的創(chuàng)造力。最終,OpenAI 開發(fā)出了能夠應(yīng)對這些任務(wù)的模型訓(xùn)練方法。OpenAI 決定開始訓(xùn)練模型執(zhí)行瀏覽任務(wù),使用了與訓(xùn)練推理模型相同的方法,但應(yīng)用于更貼近現(xiàn)實世界的任務(wù)。

Deep Research 項目最初是 Isa Fulford 和 Yash Patil 一起合作了一個原創(chuàng) demo。Josh Tobin 大約 6 個月前從創(chuàng)業(yè)公司回來,重新加入 OpenAI,對原創(chuàng)性工作產(chǎn)生了濃厚的興趣,所以加入 Deep Research 項目。

  • Isa Fulford:OpenAI Post-training 團(tuán)隊的 AI researcher,ChatGPT Retrieval Plugin 的主要貢獻(xiàn)者;
  • Yash Patil:OpenAI Post-training 團(tuán)隊里 core model 的成員,已經(jīng)從斯坦福輟學(xué);
  • Josh Tobin:曾在 OpenAI 擔(dān)任 Research Scientist,后離職成立 Gantry(一個通過分析、警報和人工反饋幫助提升 ML 的產(chǎn)品)。后再次加入 OpenAI,目前領(lǐng)導(dǎo) Agents 產(chǎn)品 research team。

2. 澄清流程(clarification flow)

Deep Research 有一個特殊的設(shè)計是澄清流程(clarification flow),即 Deep Research 模型在開始研究之前會向用戶提問,通常情況下, ChatGPT 只會在回答結(jié)束時提出 follow on questions 或者詢問答案是否滿意,而不會像 Deep Research 那樣在前期就進(jìn)行這類行為。

這一點其實是團(tuán)隊專門設(shè)計的,因為只有用戶的 prompt 非常明確和詳細(xì),用戶才會從 Deep Research 模型中得到最好的響應(yīng)。但用戶通常并不會在第一次輸入 prompt 時就提供所有的信息,因此, OpenAI 希望確保用戶在等待 5 分鐘或者 30 分鐘后,最終得到的回答是足夠詳細(xì)和令人滿意的,所以添加了這個額外的步驟,確保用戶提供模型所需要的所有細(xì)節(jié)。

很多用戶在 X 上說他們會先與 o1 或 o1 Pro 互動,使 prompt 更加詳細(xì),用戶對 prompt 滿意后,再將 prompt 發(fā)送給 Deep Research。

3. Agent 的終極形態(tài)

實際上,過去幾個月里 OpenAI 已經(jīng)推出了三種不同的 Deep Research,這些產(chǎn)品都叫做 Deep Research,Josh Tobin 認(rèn)為雖然這些產(chǎn)品各有優(yōu)缺點,但產(chǎn)品之間的質(zhì)量差異是很明顯的。歸根結(jié)底是因為模型的構(gòu)建方式,以及在構(gòu)建數(shù)據(jù)集時投入的努力,再加上 OpenAI 使用 O 系列模型作為引擎,使得 Deep Research 模型能夠被優(yōu)化,創(chuàng)造出非常聰明且高質(zhì)量的工具。

目前 Deep Research和 O3、Operator 之間還比較獨(dú)立,但 OpenAI 希望在未來,用戶能夠通過一個終極 Agent 實現(xiàn)網(wǎng)絡(luò)搜索、使用計算機(jī)或完成其他希望 Agent 完成的任務(wù),而且還能夠以更自然的方式將所有這些功能融為一體。

02. Agent 能力來自模型端到端訓(xùn)練

1. 端到端訓(xùn)練是模型強(qiáng)大的本質(zhì)原因

Deep Research 的底層模型是 O3 的 fine tuned 版本,O3 是 OpenAI 最先進(jìn)的推理模型,Deep Research 很多分析能力來源于底層 O3 模型。OpenAI 專門對 Deep Research 模型在復(fù)雜瀏覽任務(wù)和其他推理任務(wù)上進(jìn)行了訓(xùn)練,因此,Deep Research 還可以使用瀏覽工具和 Python 工具。通過在這些任務(wù)上進(jìn)行端到端的訓(xùn)練,Deep Research 學(xué)會了應(yīng)對這些任務(wù)的策略,最終使得該模型在在線搜索分析方面表現(xiàn)出色。

直觀地說,用戶提出一個請求,模型會先仔細(xì)思考這個請求,然后搜索相關(guān)信息,提取信息并閱讀。模型理解這些信息如何與請求相關(guān)后,再決定接下來搜索什么,以便更接近用戶想要的最終答案。Deep Research 能夠?qū)⑺羞@些信息整合成一份整潔的報告,并附上指向原始信息來源的引用。

Deep Research 能有 Agent 能力的創(chuàng)新之處就在于 OpenAI 對模型進(jìn)行了端到端的訓(xùn)練,這意味著在進(jìn)行研究的過程中,很多操作是事先無法預(yù)測的,不可能通過編寫某種語言模型、程序或腳本,來達(dá)到模型通過訓(xùn)練所能得到的靈活程度。Deep Research 模型通過訓(xùn)練,學(xué)會了如何對實時的網(wǎng)頁信息做出反應(yīng),并根據(jù)所看到的信息及時調(diào)整策略等,所以 Deep Research 模型實際上在進(jìn)行非常創(chuàng)造性的搜索,用戶可以通過閱讀 CoT 的總結(jié)發(fā)現(xiàn)模型在如何決定接下來要搜索什么或如何繞過某些問題方面非常聰明。

2. Deep Research 和 AI 搜索的差異

對于 John Collison 提出的“Deep Research 的能力有多少來自于實時訪問網(wǎng)頁內(nèi)容,又有多少來自于 CoT”的問題,OpenAI 的兩位研究員認(rèn)為, Deep Research 的突出能力是兩者組合的結(jié)果。

其他 AI 搜索產(chǎn)品并不是端到端訓(xùn)練的,所以在響應(yīng)信息時不會像 Deep Research 那樣靈活,也不會像 Deep Research 那樣在解決特定問題時表現(xiàn)得那么有創(chuàng)意。

Josh Tobin 在加入 OpenAI 之前在一家初創(chuàng)公司工作,曾嘗試按照大多數(shù)人描述的構(gòu)建 Agent 的方式來構(gòu)建 Agent,基本上就是構(gòu)建一個操作圖,而其中一些節(jié)點上會有 LLM 介入。雖然 LLM 可以決定接下來做什么,但整個步驟序列的邏輯是由人定義的。

Josh Tobin 發(fā)現(xiàn)這是一個快速構(gòu)建原型的強(qiáng)大方法,但在現(xiàn)實世界中很快就會出現(xiàn)問題,因為很難預(yù)見模型可能面臨的所有情境,也難以考慮可能想要采取的路徑的所有不同分支。此外,由于這些模型并沒有專門接受做決策的訓(xùn)練,它們通常不是節(jié)點上最好的決策者,它們是被訓(xùn)練來做一些與決策類似的事情。

這再次說明了 Deep Research 模型的真正強(qiáng)大之處來源于端到端直接訓(xùn)練,目的是解決用戶實際需要解決的任務(wù),所以不需要在后臺架構(gòu)中設(shè)置操作圖或做節(jié)點決策,一切都是由模型本身驅(qū)動的。

更近一步,如果用戶有一個非常具體且可預(yù)測的工作流程,那么按照上文 Josh Tobin 描述的方式來做是很有價值的。但如果需要非常靈活的處理,那么類似 Deep Research 的方法可能是最好的選擇。

Josh Tobin 建議不應(yīng)該將一些嚴(yán)格的規(guī)則硬性嵌入到模型中,如果有類似“不希望模型訪問某個數(shù)據(jù)庫”的需求,最好還是用人工編寫的邏輯來實現(xiàn)。人們往往認(rèn)為自己可以通過編寫代碼做得比模型更聰明,但實際上,隨著領(lǐng)域的發(fā)展,模型通常會比人類提出更好的解決方案。

機(jī)器學(xué)習(xí)的一個最重要的教訓(xùn)就是,你得到的結(jié)果取決于你優(yōu)化的目標(biāo)。所以,如果用戶能設(shè)置一個系統(tǒng)來直接優(yōu)化想要的結(jié)果,那么會比用戶嘗試將不適配整個任務(wù)的模型拼湊在一起要好得多。所以在模型整體基礎(chǔ)上進(jìn)行 RL 調(diào)優(yōu),可能會成為構(gòu)建最強(qiáng)大的 Agent 的關(guān)鍵部分。

3. 模型成功的關(guān)鍵因素之一在于高質(zhì)量數(shù)據(jù)

Deep Research 模型能夠成功的關(guān)鍵因素之一是有高質(zhì)量的數(shù)據(jù)集。投入到模型中的數(shù)據(jù)質(zhì)量,很可能是決定模型質(zhì)量的關(guān)鍵因素。在 Deep Research 項目中,Edward Sun 會對所有數(shù)據(jù)集進(jìn)行優(yōu)化。

03.Deep Research 的優(yōu)勢

Deep Research 的優(yōu)勢在于,當(dāng)用戶有一個詳細(xì)的需求描述時,Deep Research 能夠通過閱讀大量的互聯(lián)網(wǎng)內(nèi)容來提供最佳答案,但如果用戶的問題比較模糊,Deep Research 也能理清想要的信息。Deep Research 最強(qiáng)大的時候是用戶在尋找一組具體信息的時候。

Deep Research 不僅能廣泛地收集關(guān)于某個來源的所有信息,還能很好地找到一些非常冷門的事實,比如在傳統(tǒng)搜索中不會出現(xiàn)在前幾頁的長尾內(nèi)容,某部冷門電視節(jié)目其中某一集的細(xì)節(jié)信息等。在一個有關(guān)奧地利將軍的問題中,ChatGPT 曾經(jīng)給出了錯誤的答案,而 Deep Research 成功找到了正確的答案。

Deep Research 非常擅長綜合信息,尤其是在找到一些特定的、難以找到的信息上。不過,Deep Research 從已有信息中提煉出新的見解的效果不佳,還不能做出新的科學(xué)發(fā)現(xiàn)。

04.Deep Research 的使用場景

1. 目標(biāo)用戶

Deep Research 是為任何在日常工作或生活中從事知識性工作的人員設(shè)計的,特別適合需要大量收集信息、分析數(shù)據(jù)并做出決策的人。很多使用者將 Deep Research 應(yīng)用于工作中,比如在做研究的時候,用于了解市場、公司、房地產(chǎn)等領(lǐng)域的情況。

2. Use Case

OpenAI 希望 Deep Research 能兼顧商業(yè)場景和個人生活場景,因為 Deep Research 實際上是一種非常通用的能力,既適用于工作,也適用于個人生活。Deep Research 的魅力在于能夠節(jié)省很多時間,有些任務(wù)原來可能需要花費(fèi)數(shù)個小時,甚至幾天時間,但現(xiàn)在人們可以用 Deep Research 得到 90% 的答案。OpenAI 認(rèn)為商業(yè)場景中的類似任務(wù)會更多,但 Deep Research 也會成為人們個人生活的一部分。

Deep Research 不是取代勞動力,對于知識型工作,尤其是需要花大量時間查找信息并得出結(jié)論的工作,Deep Research 將賦予人們超能力,使得原來可能需要 4 或 8 小時才能完成的事情可以在 5 分鐘內(nèi)完成,用戶因此可以實現(xiàn)更多的事情。

訪談中提及的 use case 包括:醫(yī)療、投資等工作場景,購物、旅行等家庭場景,編程和個性化教育等。

? 醫(yī)療、投資等專業(yè)工作場景

在醫(yī)療上,Deep Research 能夠幫助尋找某種疾病的所有文獻(xiàn)或最近的病例,從而節(jié)省了時間。

在投資上,在 Deep Research 幫助下,投資人可以選擇對每一個可能投資的初創(chuàng)公司都進(jìn)行研究,而不僅僅是只研究有時間會面的公司。

在公司經(jīng)營上,有一個正在考慮創(chuàng)辦一家消費(fèi)品公司的用戶,他一直在大量使用 Deep Research 來確定特定的品牌名稱是否已經(jīng)被注冊,域名是否被占用,市場規(guī)模等各種信息。

? 購物、旅行等家庭場景

有用戶在考慮買新車的時候,想知道下一款車型什么時候發(fā)布,而網(wǎng)上有很多猜測性的文章,因此用戶讓 Deep Research 整理相關(guān)的所有傳聞等,最后 Deep Research 整理出了一份很出色的報告,告訴用戶可能會在接下來的幾個月里發(fā)布新車。

在日本推出 Deep Research 時,用戶發(fā)現(xiàn) Deep Research 在找到符合特定要求的餐廳方面非常有幫助,還能幫用戶發(fā)現(xiàn)一些本來可能找不到的東西。

用戶需要購買某個貴重物品,或者規(guī)劃一趟特別的旅行,或者需要花很多時間去思考某個問題時,用戶可能會花費(fèi)幾個小時在網(wǎng)上查找相關(guān)信息,瀏覽所有的評論等,而 Deep Research 可以迅速把這些信息整理出來,像是做一個總結(jié)報告,提供詳細(xì)和個性化的建議。

忙碌的職場媽媽往往沒時間為孩子策劃生日派對,但現(xiàn)在在 Deep Research 的幫助下可以快速做到。

Deep Research 在指令跟隨方面也非常出色。如果用戶不僅想要了解某個產(chǎn)品的信息,還想要與其他所有產(chǎn)品進(jìn)行對比,甚至想要查看來自 Reddit 等網(wǎng)站的評論,用戶可以對 Deep Research 提出許多不同的要求,Deep Research 會一次性完成這些任務(wù),用戶還可以讓 Deep Research 把信息做成表格。

? 編程

很多人把 Deep Research 用于編程,這個場景并不是 OpenAI 最初所考慮在內(nèi)的,但確實有很多人用來編寫代碼、進(jìn)行代碼搜索,甚至查找某個包的最新文檔,或者寫腳本等,效果令人印象深刻。

? 教育

個性化教育是一個非常有趣的應(yīng)用場景。如果用戶有一個想學(xué)的主題,比如需要復(fù)習(xí)生物學(xué),或者想了解一些時事,用戶只需要提供自身不理解的部分,或者想深入研究的信息,Deep Research 就能整理出一份詳細(xì)的報告。或許在未來可以做到根據(jù) Deep Research 了解到的用戶情況,提供個性化的教育。

05.Agent 會在 2025 年嶄露新頭角

1. Deep Research 未來發(fā)展方向

在產(chǎn)品形態(tài)上,OpenAI 希望未來 Deep Research 能夠嵌入圖像,可以找到產(chǎn)品的圖片,也能生成圖表,并將這些圖表嵌入回答中。

在信息來源上,OpenAI 希望能夠擴(kuò)展模型可以訪問的數(shù)據(jù)源,希望模型未來能夠搜索私人數(shù)據(jù),OpenAI 接下來會進(jìn)一步提升模型的能力,使得模型在瀏覽和分析方面做得更好。

在信息準(zhǔn)確度上,為了讓用戶能夠信任 Deep Research 的輸出,用戶可以看到模型引用的信息來源。在訓(xùn)練模型的過程中,OpenAI 也會努力確保引用的正確性,但模型仍然有可能出錯,或者產(chǎn)生幻覺,甚至信任一個可能不是最可信的信息來源。因此,這是 OpenAI 希望繼續(xù)改進(jìn)的領(lǐng)域。

為了更廣泛地融入 OpenAI Agent 路線圖,OpenAI 希望 Deep Research 能夠擴(kuò)展到許多不同的應(yīng)用場景,將最先進(jìn)的推理模型與人類可以用來完成工作或日常生活任務(wù)的工具結(jié)合起來,然后直接優(yōu)化模型以實現(xiàn)用戶希望 Agent 能夠完成的結(jié)果。

現(xiàn)階段實際上沒有什么能夠阻止 Deep Research 擴(kuò)展到更加復(fù)雜的任務(wù)場景上,AGI 現(xiàn)在是一個操作性問題,未來還會有很多值得期待的進(jìn)展。

Sam Altman 認(rèn)為,Deep Research 能夠完成的任務(wù)將占到世界上所有經(jīng)濟(jì)上可行的任務(wù)的百分之幾。Josh Tobin 認(rèn)為, Deep Research 并不能為用戶做所有的工作,但能夠為用戶節(jié)省幾個小時,甚至是幾天的時間。OpenAI 希望相對接近的目標(biāo)是,Deep Research 和接下來構(gòu)建的 Agent,以及在這個基礎(chǔ)上構(gòu)建的其他 Agent,可以根據(jù)用戶所從事的工作類型,幫用戶節(jié)省 1%、5%、10% 或 25% 的時間。

2. Agent & RL

Isa Fulford 和 Josh Tobin 一致認(rèn)為今年 Agent 會嶄露頭角。

RL 經(jīng)歷了一個高峰,之后感覺又有點低谷,現(xiàn)在又受到人們關(guān)注。Yan LeCunn 曾經(jīng)有一個類比,如果人們在做蛋糕,那大部分是蛋糕,會有一點糖霜,最后放上幾顆櫻桃,無監(jiān)督學(xué)習(xí)就像是蛋糕,監(jiān)督學(xué)習(xí)是糖霜,RL 就是櫻桃。

Josh Tobin 認(rèn)為,在 2015-2016 年做 RL 的時候,以做蛋糕類比,可能是試圖在沒有蛋糕的情況下先加櫻桃,但現(xiàn)在,已經(jīng)有了在大量數(shù)據(jù)上預(yù)訓(xùn)練的語言模型,這些模型非常強(qiáng)大,并且知道了如何對這些語言模型進(jìn)行監(jiān)督微調(diào),使模型擅長執(zhí)行指令和做出人們想要的事情,現(xiàn)在一切運(yùn)作得非常好,非常適合根據(jù)用戶定義的獎勵函數(shù)來調(diào)整這些模型,用于任何用例。

編譯:haozhen 編輯:siqi

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號:【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
16340人已学习12篇文章
本专题的文章分享了产品经理需要知晓的API接口知识。
专题
16527人已学习12篇文章
本专题的文章分享了支付体系的设计指南。
专题
12491人已学习12篇文章
本专题的文章分享了系统首页设计指南。
专题
11863人已学习12篇文章
如今随着商业的发展,消费者与品牌建立起了更深的联系,商务活动也开始以消费者为中心,所以消费者的体验以及建议就非常重要。本专题的文章分享了消费者行为学。
专题
14133人已学习13篇文章
如果做小红书运营?本专题的文章分享了小红书流量密码。
专题
13884人已学习12篇文章
本专题的文章主要以跨境电商为例,对其OMS系统进行分析。