看懂OpenAI o1背后玄機!打破數(shù)據(jù)瓶頸,AI也能像人一樣思考
OpenAI發(fā)布的o1系列模型標(biāo)志著AI推理能力的飛躍,它在數(shù)學(xué)解題、代碼生成等復(fù)雜任務(wù)上展現(xiàn)出了前所未有的能力,為AI向通用復(fù)雜推理的邁進鋪平了道路!
今天凌晨,OpenAI發(fā)了一個新模型——OpenAI o1系列模型。
對比以往發(fā)布的模型,o1模型可以說相當(dāng)有特色。用官方的說法,o1代表了現(xiàn)階段AI最強的推理能力,尤其擅長解決數(shù)學(xué)解題、代碼生成等等復(fù)雜推理任務(wù)。
OpenAI也很重視這個模型,沒有用GPT繼續(xù)給這個模型命名,而是采用了一個新名字:OpenAI o1。
Sam Altman更是將OpenAI o1的發(fā)布比作一個新階段的開始:
可以進行通用復(fù)雜推理的AI。
那么,為什么AI學(xué)會復(fù)雜推理這么重要?o1的發(fā)布,又對AI通往AGI有著什么樣的意義?
01 AI也會慢思考了
與之前發(fā)布的模型相比,o1最大的特點就是推理能力很強。
打個比方,之前大模型更像是文科生,擅長文本類工作,但邏輯推理和復(fù)雜計算方面差點意思,遇到奧數(shù)題目就歇菜。而o1則更像一個理科生,不僅能推理復(fù)雜任務(wù),還能解決科學(xué)、編碼和數(shù)學(xué)領(lǐng)域中比以往更為困難的問題。
o1的邏輯能力有多強?用OpenAI發(fā)布的一組圖,你就明白了。
第一個圖是o1參加AIME 2024的成績。AIME 2024是國際數(shù)學(xué)奧林匹克競賽(IMO)的資格考試,難度不言而喻。在這個比賽里,o1的準(zhǔn)確率是83.3%,而GPT4o的準(zhǔn)確率只有13.4%。
第二項是編程競賽,o1的準(zhǔn)確率高達89%,而GPT4o準(zhǔn)確率只有11.0%。最后一項測試是GPQA Diamond,主要測試的是化學(xué)、物理和生物學(xué)方面的專業(yè)知識。在這個測試?yán)?,o1超越了人類專家的表現(xiàn),成為第一個在這個測試中表現(xiàn)優(yōu)于博士級別專家的模型。
這些測試結(jié)果表明,o1在數(shù)學(xué)、編程、科學(xué)等推理類任務(wù)上達到了新高度,甚至在某些任務(wù)上已經(jīng)超過了人類專家的水平。
為什么o1的推理能力這么強?這得益于思維鏈的構(gòu)建。
思維鏈,最早出現(xiàn)在2022年谷歌發(fā)布論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中,是大模型提示詞(Prompting)工作的一種。
在o1回答問題前,會產(chǎn)生一個內(nèi)部的思維鏈,思維鏈會把大模型沒辦法直接回答的復(fù)雜問題,分解為一個個簡單的任務(wù)各自計算,然后把這些答案拼接在一起進行求解,而不是直接給出計算結(jié)果。
對于思維鏈的價值,知乎答主絕密伏擊打過一個很形象的比喻:
標(biāo)準(zhǔn) Prompting
給大模型一道數(shù)學(xué)題,在標(biāo)準(zhǔn)Prompting下,模型無法做出正確的回答。但如果我們給模型一些關(guān)于解題的思路,在CoT提示下,它就會像我們數(shù)學(xué)考試,都會把解題過程寫出來再最終得出答案,比如下圖:
CoT提示
在這個過程中,大模型能夠識別和修正自己的錯誤,不斷改進推理策略。這種思維過程不僅讓它的推理能力得到顯著提升,還讓模型在回答問題時更加可靠。
不過這種思維方式,需要更長的響應(yīng)時間。理論上,大模型思考的時間越長,推理任務(wù)上的表現(xiàn)就越好,可以理解為用時間換取推理深度。
o1的發(fā)布補足了GPT模型在推理方面的缺陷,讓AI更接近人類雙系統(tǒng)的思考方式。
人類大腦在處理信息和做出決策通常有兩種方式:快思考(系統(tǒng)1)和慢思考(系統(tǒng)2)。前者無意識且快速的,它依賴直覺、記憶和經(jīng)驗迅速作出判斷。后者則有意識的、需要調(diào)動注意力的思考方式,它通過分析和解決問題,并作出決定,雖然較慢,但不容易出錯。
這種互補性,也極有可能會出現(xiàn)在GPT和o1上。
GPT系列對應(yīng)系統(tǒng)1,負(fù)責(zé)快速、直接決策,依賴于經(jīng)驗和情感,而o1則對應(yīng)系統(tǒng)2,復(fù)雜較慢的思考和推理,依賴于邏輯和理性分析。
兩種系統(tǒng)協(xié)同運作,當(dāng)系統(tǒng)1快速反應(yīng)不足以面對復(fù)雜情況時,系統(tǒng)2會介入進行更深入的分析,進而讓AI最終能夠讓人一樣思考。
當(dāng)然,讓AI像人一樣思考,還不是o1唯一的意義。
02 智能提升的另一種路徑
在o1發(fā)布后,OpenAI研究員諾姆·布朗(Noam Brown)在X上寫下:
o1模型,意味著一種新的擴展范式。
這是o1發(fā)布的另一個重要意義。大模型將進入了一個新的擴張范式:從模型參數(shù)增大,轉(zhuǎn)向強化學(xué)習(xí)的探索。
眾所周知,過去一年里,大模型的升級全靠“大力出奇跡”的方式,也就是說,隨著計算量、模型參數(shù)和數(shù)據(jù)集大小的增加,模型的性能通常會顯著提高。
但現(xiàn)在這條路越來越不好走了。因為在這種訓(xùn)練模式下,大模型需要大量且優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù),但這帶來了兩個問題:
一是隨著訓(xùn)練需要的數(shù)據(jù)量越來越大,去哪找這么多高質(zhì)量數(shù)據(jù)是個問題。二是喂了這么多數(shù)據(jù),大模型學(xué)習(xí)方式本質(zhì)還是歸納總結(jié),但并沒有真正搞懂事物的邏輯。
舉個例子,大模型發(fā)現(xiàn)人渴了,就需要喝水。大模型理解了口渴和喝水之間的關(guān)聯(lián)性,但它可能沒辦法理解,為什么人渴了,要喝水。這也是為什么大模型面對復(fù)雜問題時,經(jīng)常出現(xiàn)邏輯錯誤的原因。
在這種情況下,就需要新的擴張范式來提升大模型的智能能力。于是,強化學(xué)習(xí)進入了AI大廠的視野。
所謂的強化學(xué)習(xí),是讓AI在一個環(huán)境里自己探索。在探索過程中會得到很多反饋,這些反饋有好的,也有不好的,AI再根據(jù)反饋不斷調(diào)整自己的策略和對環(huán)境的認(rèn)知。
這樣的策略以前在AlphaGo身上也用過。為了提高AlphaGo的圍棋水平,研究員讓AlphaGo自己和自己下棋,從而產(chǎn)生大量高水平的棋譜,這有點像金庸武俠小說里老頑童周伯通的左右互搏武功。再通過下棋輸贏(或者平棋)的結(jié)果對走棋路徑進行評估。
在后來的AlphaZero訓(xùn)練里,模型進行了大約500萬局自我對弈,每局大約200步,做好每一步平均需要1600次模擬。這使得總的模擬次數(shù)達到了1.6萬億次。大量的高質(zhì)量合成數(shù)據(jù),最終讓AI探索出和人類不一樣的游戲套路,并戰(zhàn)勝了大部分職業(yè)選手。
從本質(zhì)上說,這個方法是用AI無限的計算能力,來補足它數(shù)據(jù)利用效率不夠的短板。也就是說,只要擴張推理計算能力,就能實現(xiàn)大模型智能水平的提升。
這更符合當(dāng)下AI發(fā)展的現(xiàn)狀。相比尋找更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù),通過基建實現(xiàn)推理算力的增長是一條更可行的路徑。
如今,有了思維鏈,大模型可以把推理過程中的每一步思考都記錄下來,并進行打分,再根據(jù)評分高低反饋給模型進行調(diào)整。在這個過程中,大模型不僅能學(xué)到如何給出正確答案,還能舉一反三獲得更多的數(shù)據(jù)反饋,進而提升其智能水平。
當(dāng)然,作為剛剛發(fā)布的新模型,o1仍然有很多的缺陷。但在GPT5遙遙無期的情況下,這至少給行業(yè)帶來了新的思路。至于這條路線究竟是否會將我們帶向AGI,我們可以拭目以待。
文/林白
本文由人人都是產(chǎn)品經(jīng)理作者【烏鴉智能說】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!