AI做數(shù)學(xué)學(xué)會(huì)「動(dòng)腦子」! UCL等發(fā)現(xiàn)LLM「程序性知識(shí)」,推理絕不是背答案
LLM在推理時(shí),竟是通過一種「程序性知識(shí)」,而非照搬答案?可以認(rèn)為這是一種變相的證明:LLM的確具備某種推理能力。然而存在爭議的是,這項(xiàng)研究只能提供證據(jù),而非證明。
LLM,究竟會(huì)不會(huì)推理?
就在剛剛,UCL、Cohere等機(jī)構(gòu)的研究人員發(fā)現(xiàn):在LLM執(zhí)行推理任務(wù)時(shí),竟存在著一種「程序性知識(shí)」。
論文地址:https://arxiv.org/abs/2411.12580
這項(xiàng)工作已經(jīng)登上了Hacker News的熱榜。
跟很多人想象的不同,LLM在推理時(shí),并不是使用簡單的檢索。
真相是,LLM在推理任務(wù)中進(jìn)行泛化時(shí),依賴的是文檔中的「程序性知識(shí)」,使用可概括的策略,來綜合推理任務(wù)的解決方案。
研究發(fā)現(xiàn),在涉及「世界上最長的河流」、「人體最常見的元素」這類問題時(shí),模型所依賴的數(shù)據(jù)集并不相同。
然而一旦涉及到數(shù)學(xué)題這類推理問題,LLM卻使用了某種策略,從文檔中綜合出了一種「程序性知識(shí)」。
推理集中的示例,關(guān)于「求解線性方程中的x」有人表示,既然LLM不可能在訓(xùn)練數(shù)據(jù)中找到每一個(gè)問題的例子,那就可以認(rèn)為,LLM已經(jīng)在進(jìn)行某種形式的推斷,以創(chuàng)造出對(duì)所提問題的解決方案。
更有趣的是,此前蘋果的研究者曾在一篇論文中發(fā)現(xiàn),GPT-4o、o1、Llama、Phi、Gemma和Mistral等模型,都未被發(fā)現(xiàn)任何形式推理的證據(jù),而更像是復(fù)雜的模式匹配器。
只要給數(shù)學(xué)題換個(gè)皮,對(duì)無關(guān)緊要的信息進(jìn)行修改,LLM就不會(huì)做了。
而UCL這項(xiàng)工作的結(jié)果,并未和蘋果的這篇論文發(fā)生矛盾。
有人根據(jù)這項(xiàng)研究的結(jié)果,做出這樣的總結(jié):LLM不適合推理,但非常適合充當(dāng)一種「編譯器」層,彌合自然語言和SQ、prolog、python、lean等形式語言的差距。再對(duì)形式語言層的結(jié)果和輸出進(jìn)行綜合,這基本上就是智能體了。
有網(wǎng)友分析表示,這個(gè)過程并不是「學(xué)習(xí)如何解決問題」的泛化,而是更具體的:「神經(jīng)網(wǎng)絡(luò)被訓(xùn)練去模仿人類在解決特定問題時(shí)展示的逐步過程」。
也就是說,LLM是通過觀察人類程序化解決問題的示例,從而復(fù)制類似的推理。
另外還有一些網(wǎng)友更加犀利:「大多數(shù)人活了幾十年都搞不懂該如何正確地推理,并且經(jīng)常陷入邏輯謬誤當(dāng)中;現(xiàn)在竟然覺得自己可以評(píng)判LLM是不是具有推理能力了?」
一、「程序性知識(shí)」被發(fā)現(xiàn)了
長久以來,LLM的能力和局限性,令人著迷卻又矛盾。
一方面,LLM解決一般問題的能力十分驚艷??闪硪环矫?,跟人類相比,它們表現(xiàn)出的推理缺陷又令人啼笑皆非,因此讓人懷疑:它們的泛化策略是否具有穩(wěn)健性?
為了探討LLM究竟采用何種泛化策略,研究人員對(duì)LLM在執(zhí)行推理任務(wù)時(shí)依賴的預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行了研究。
在兩種不同規(guī)模的模型(7B和35B)及其25億預(yù)訓(xùn)練token中,研究人員識(shí)別出哪些文檔對(duì)三種簡單數(shù)學(xué)推理任務(wù)的模型輸出產(chǎn)生了影響,并將其與回答事實(shí)性問題時(shí)具有影響力的數(shù)據(jù)進(jìn)行了對(duì)比。
就是在這個(gè)過程中,他們發(fā)現(xiàn)了「程序性知識(shí)」的存在!
具體來說,雖然模型在回答每個(gè)事實(shí)性問題時(shí)依賴的數(shù)據(jù)集大多是不同的,但在同一任務(wù)中的不同推理問題上,一個(gè)文檔確往往表現(xiàn)出了類似的影響力。
事實(shí)控制集的示例,類似于7B事實(shí)查詢集中關(guān)于「世界上最高的山」的問題,但不需要任何事實(shí)回憶
另外他們還發(fā)現(xiàn),對(duì)于事實(shí)性問題,答案通常出現(xiàn)在最具影響力的數(shù)據(jù)中。
然而,對(duì)于推理問題,答案通常不會(huì)出現(xiàn)在高度影響力的數(shù)據(jù)中,中間推理步驟的答案亦是如此。
原因?yàn)楹危抗?,還是和「程序性知識(shí)」有關(guān)。
對(duì)此,研究人員對(duì)推理問題的高排名文檔進(jìn)行了定性分析后,確認(rèn)了這些具有影響力的文檔的確通常都是包含程序性知識(shí)的,比如展示了如何使用公式或代碼求解的過程。
總之,模型在推理時(shí)并不是簡單檢索,而更像是使用一種可泛化的策略,即從進(jìn)行類似推理的文檔中綜合程序性知識(shí)。
推理控制集的示例,表明上類似于斜率查詢,但不需要任何推理
二、LLM是如何從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)推理的?
LLM在推理中,是否真正理解了問題呢?
許多研究一致發(fā)現(xiàn):LLM的能力,嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)中類似問題的頻率。
這就牽出了「數(shù)據(jù)污染」的問題:基準(zhǔn)數(shù)據(jù)往往會(huì)出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)集中。
在機(jī)器學(xué)習(xí)中,可以將測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分離來衡量泛化能力,但當(dāng)前先進(jìn)模型設(shè)計(jì)中使用的數(shù)萬億token,已經(jīng)已無法合理地與基準(zhǔn)測(cè)試數(shù)據(jù)完全分離了。
許多研究都表明,相當(dāng)多常見的基準(zhǔn)測(cè)試,都含有大量污染數(shù)據(jù)。即使是經(jīng)改寫的基準(zhǔn)數(shù)據(jù),也可能會(huì)規(guī)避基于N-gram的檢測(cè)方法,對(duì)性能產(chǎn)生影響。
LLM究竟是在何種情況下,依賴污染數(shù)據(jù)進(jìn)行推理的呢?
這個(gè)問題,又引發(fā)出了另一個(gè)核心問題——LLM是如何從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)推理的?
因此,在這項(xiàng)研究中,研究人員們重點(diǎn)專注的是語言模型用于泛化的預(yù)訓(xùn)練數(shù)據(jù),而非直接解釋模型的權(quán)重。
推理集中的示例,涉及計(jì)算穿過兩點(diǎn)直線的斜率
哪些數(shù)據(jù)會(huì)影響模式生成的推理過程?這些數(shù)據(jù)如何與所解決的具體問題相關(guān)?
模型是否僅僅從已見過的預(yù)訓(xùn)練數(shù)據(jù)中「提取」答案并重新整合,還是在泛化中采用了一種更為穩(wěn)健的策略?
為此,研究人員們借助了一種來自魯棒統(tǒng)計(jì)學(xué)的方法,讓它適配于大規(guī)模Transformer,以計(jì)算預(yù)訓(xùn)練文檔對(duì)訓(xùn)練模型中提示詞-完成對(duì)(prompt-completions pairs)概率的影響。
可以猜測(cè),在極端情況下,回答推理問題的語言模型可能嚴(yán)重依賴于從預(yù)訓(xùn)練數(shù)據(jù)的特定文檔中檢索的參數(shù)化知識(shí)。這些文檔包含所需檢索的信息(即推理軌跡),對(duì)模型的輸出貢獻(xiàn)顯著,相比之下,許多其他文檔的作用則微乎其微。
相反,在另一種極端情況下,模型可能從與問題更抽象相關(guān)的廣泛文檔中汲取信息,每份文檔對(duì)許多不同問題都會(huì)產(chǎn)生類似影響,但對(duì)最終輸出的貢獻(xiàn)相對(duì)較小。而泛化能力更強(qiáng)的推理應(yīng)更類似于后一種策略。
事實(shí)是不是如此呢?
他們研究了對(duì)一組事實(shí)性問題和推理問題(稱為「查詢」)具有影響力的預(yù)訓(xùn)練數(shù)據(jù)(稱為「文檔」)。
推理問題涵蓋三種數(shù)學(xué)任務(wù):兩步算術(shù)、斜率計(jì)算和線性方程求解。
這些任務(wù)代表了逐步推理不同層次的挑戰(zhàn),而事實(shí)性問題則需要從參數(shù)化知識(shí)中檢索答案。
對(duì)兩種LLM(7B和35B)及其25億預(yù)訓(xùn)練token進(jìn)行實(shí)驗(yàn)后,他們的發(fā)現(xiàn)如下——
1. 文檔中的程序性知識(shí),驅(qū)動(dòng)了對(duì)推理過程軌跡的影響
一個(gè)文檔對(duì)某個(gè)查詢推理過程軌跡的影響力,可以強(qiáng)烈預(yù)測(cè)該文檔對(duì)相同數(shù)學(xué)任務(wù)的另一個(gè)查詢的影響力。
相比之下,這種現(xiàn)象在事實(shí)性查詢中卻并不成立。
這表明,對(duì)于需要將相同程序應(yīng)用于不同數(shù)字的問題,文檔通常具有類似的貢獻(xiàn)。
在斜率計(jì)算的查詢中,這種相關(guān)性尤其顯著。在排名前0.002%的預(yù)訓(xùn)練數(shù)據(jù)中,多次發(fā)現(xiàn)了包含代碼或數(shù)學(xué)解題程序的文檔。
2. 在推理問題上,模型對(duì)單個(gè)文檔的依賴程度較低,且依賴的文檔集合更為廣泛
研究人員還發(fā)現(xiàn),對(duì)于模型生成的每單位查詢信息,文檔的影響力在推理問題上通常比事實(shí)性問題低得多。
此外,文檔集合的整體影響力波動(dòng)性較小。
前者可以表明,在生成推理過程軌跡時(shí),模型對(duì)每個(gè)單獨(dú)文檔的依賴程度低于事實(shí)性檢索。
而后者表明,對(duì)于一個(gè)隨機(jī)的25億預(yù)訓(xùn)練token子集,是否包含高度影響力的文檔對(duì)事實(shí)性問題的影響更具偶然性,而對(duì)推理問題則更為穩(wěn)定。
總之,這就表明,模型在推理問題上更傾向于從更廣泛的文檔集合中泛化,而對(duì)單個(gè)文檔的依賴較少。
3. 對(duì)于事實(shí)性問題,答案通常出現(xiàn)在高度影響力的文檔中,而推理問題則不然
查看每個(gè)查詢中排名前500(排名前0.01%)的影響力文檔后,研究人員發(fā)現(xiàn),事實(shí)性問題的答案相對(duì)較常出現(xiàn)(7B 模型中占55%的查詢,35B模型中占30%)。
而在推理問題中,則幾乎沒有,即使他們確實(shí)在更大的25億token數(shù)據(jù)集中找到了答案。
4. 代碼對(duì)于數(shù)學(xué)推理非常重要
在推理查詢的正負(fù)影響力排名的頂端部分,與訓(xùn)練分布相比,代碼數(shù)據(jù)的比例明顯過高。
這個(gè)研究結(jié)果表明,推理的泛化策略,不同于從預(yù)訓(xùn)練期間形成的參數(shù)化知識(shí)中進(jìn)行檢索。
相反,模型的學(xué)習(xí),是從涉及類似推理過程的文檔中提取程序性知識(shí),無論是以程序的一般描述形式,還是以類似程序的應(yīng)用形式。
這個(gè)發(fā)現(xiàn)告訴我們:或許我們并不需要在預(yù)訓(xùn)練數(shù)據(jù)中涵蓋所有可能的情況。
相反,專注于展示跨多樣推理任務(wù)的程序性高質(zhì)量數(shù)據(jù)可能更為有效,因?yàn)檫@有助于降低預(yù)訓(xùn)練數(shù)據(jù)的冗余性。
而代碼在所有任務(wù)中發(fā)揮的重要作用,也引發(fā)了一個(gè)有趣的問題:是否存在某種預(yù)訓(xùn)練數(shù)據(jù)類型(例如代碼),能幫助模型(尤其是更大的模型),來學(xué)習(xí)多個(gè)任務(wù)?
如果能深入理解程序性泛化的范圍,我們未來的預(yù)訓(xùn)練策略就會(huì)得到更多的指導(dǎo),還能在數(shù)據(jù)選擇中確定重點(diǎn)。
三、文檔對(duì)補(bǔ)全的影響
1. 影響函數(shù)
文檔對(duì)補(bǔ)全的影響影響函數(shù)給定一個(gè)預(yù)訓(xùn)練模型θ^u,該模型參數(shù)化了一個(gè)基于提示詞
的下一個(gè)token的分布。
其中,y_c = {y_1, …, y_m} 是補(bǔ)全,y_p = {y_1, …, y_n} 是提示詞,u表示參數(shù)未必訓(xùn)練到收斂,研究人員希望找到來自預(yù)訓(xùn)練數(shù)據(jù)集
中對(duì)補(bǔ)全產(chǎn)生影響的數(shù)據(jù)。
也就是說,研究人員想知道,預(yù)訓(xùn)練數(shù)據(jù)集中哪些樣本「導(dǎo)致」了一個(gè)補(bǔ)全。
為此,他們使用了針對(duì)大規(guī)模Transformer的EK-FAC影響函數(shù)。
參數(shù) θ^u通常通過對(duì)目標(biāo)函數(shù)執(zhí)行基于梯度的迭代算法,并根據(jù)某些標(biāo)準(zhǔn)停止來獲得。
研究人員希望了解訓(xùn)練文檔x_j∈D對(duì)參數(shù)θ^u的影響(通過鏈?zhǔn)椒▌t,也可重新表述為「對(duì)θ^u的任何連續(xù)可微函數(shù)的影響」)。
研究人員希望,可以通過從原始訓(xùn)練集中移除x_j,重新訓(xùn)練模型,并將結(jié)果參數(shù)集(或其函數(shù))與原始訓(xùn)練模型進(jìn)行比較,從而精確計(jì)算影響。
然而,對(duì)于任何有意義數(shù)量的文檔和參數(shù)來說,這種方法都是不可行的。
為此,他們利用影響函數(shù)通過對(duì)響應(yīng)函數(shù)進(jìn)行泰勒展開,來估計(jì)這種反事實(shí):
其中 L(·) 是一個(gè)損失函數(shù),例如交叉熵?fù)p失。
響應(yīng)函數(shù)在ε=0附近的一階泰勒近似,用于推導(dǎo)當(dāng)ε改變時(shí)最優(yōu)參數(shù)如何變化,而ε的變化會(huì)改變想要分析的文檔的權(quán)重。
通過隱函數(shù)定理,影響定義為:
其中
是預(yù)訓(xùn)練目標(biāo)的Hessian矩陣。
通過鏈?zhǔn)椒▌t,可以通過近似以下公式,來估計(jì)給定提示詞時(shí)訓(xùn)練文檔x = {x1, …, xk} 對(duì)補(bǔ)全的影響:
由于研究的是數(shù)十億參數(shù)D的模型,上述Hessian是不可計(jì)算的,因此,研究人員使用EK-FAC估計(jì)法來進(jìn)行估算。
它涉及估算兩個(gè)期望值
其中A表示模型的激活。
為了使這種估算可行,研究人員在所有估算中做出了一些簡化假設(shè),例如假設(shè)層與層之間相互獨(dú)立,并且只考慮 Transformer層的MLP參數(shù)。
近似假設(shè)列表
2. 應(yīng)用EK-FAC
先前的研究表明,與其他類型的影響函數(shù)相比,EK-FAC影響函數(shù)能夠更準(zhǔn)確地估算由響應(yīng)函數(shù)給出的反事實(shí)。
然而,除了對(duì)語言模型補(bǔ)全的影響,研究人員還關(guān)注對(duì)訓(xùn)練語言模型在回答問題時(shí)準(zhǔn)確性的影響。
因?yàn)槟壳吧袩o研究表明,影響函數(shù)可以估算由下一詞預(yù)測(cè)生成文本的底層準(zhǔn)確性的影響,因此只能計(jì)算對(duì)連續(xù)可微函數(shù)的影響。
因此,研究人員選擇交叉熵?fù)p失函數(shù)(公式1中的f)作為連續(xù)可微函數(shù)。
通過這種方式計(jì)算出的影響,可以揭示對(duì)7B模型在推理和閱讀理解任務(wù)中準(zhǔn)確性具有因果影響的文檔。
具體來說,如果根據(jù)文檔的影響從微調(diào)數(shù)據(jù)中移除文檔并重新訓(xùn)練模型,其準(zhǔn)確性下降的幅度顯著高于隨機(jī)移除相同數(shù)量的文檔,或者使用梯度相似性移除相同數(shù)量的文檔。
同時(shí),可以通過展示EK-FAC對(duì)Hessian的估算顯著優(yōu)于僅使用一階信息的方法,來論證使用EK-FAC估算的合理性。
由于只能對(duì)預(yù)訓(xùn)練數(shù)據(jù)樣本進(jìn)行一次循環(huán),并且只能在內(nèi)存中存儲(chǔ)一個(gè)查詢梯度(其內(nèi)存復(fù)雜度與模型本身相同),研究人員使用了奇異值分解(SVD)。
由于他們采用了一種基于概率算法的近似SVD,這顯著加快了查詢梯度的計(jì)算速度。
通過近似公式1來為預(yù)訓(xùn)練數(shù)據(jù)D中的文檔計(jì)算得分,這些得分代表了它們?cè)诮o定提示詞y_p時(shí)對(duì)補(bǔ)全y_c的影響。
在由響應(yīng)函數(shù)近似的反事實(shí)問題中,影響得分為1,表示序列y_c的對(duì)數(shù)概率增加了1。
為了比較不同補(bǔ)全(和token長度)的影響得分,研究人員通過補(bǔ)全y_c的信息量對(duì)查詢得分進(jìn)行歸一化,信息量以nat為單位衡量。
根據(jù)影響得分,他們對(duì)文檔進(jìn)行了從正到負(fù)的排名,其中得分可以解釋為每nat查詢信息增加(或減少)的對(duì)數(shù)概率。
四、實(shí)驗(yàn)與結(jié)果
實(shí)驗(yàn)階段,研究人員比較了通過影響函數(shù)對(duì)推理問題生成的預(yù)訓(xùn)練數(shù)據(jù)排名順序(從最正面影響到最負(fù)面影響)與事實(shí)性問題排名順序的差異(事實(shí)性問題只能通過檢索參數(shù)化知識(shí)來回答)。
1. 定量分析
發(fā)現(xiàn) 1:對(duì)于底層推理任務(wù)相同的查詢,其文檔影響評(píng)分之間存在顯著的正相關(guān)性。
這表明,這些文檔對(duì)需要相同程序但應(yīng)用于不同數(shù)字的問題具有相關(guān)性。
如果模型依賴于包含「通用」知識(shí)的文檔,而這些知識(shí)適用于同一任務(wù)的所有查詢,那么可以預(yù)期,這些查詢對(duì)應(yīng)的文檔影響評(píng)分之間會(huì)呈現(xiàn)顯著的相關(guān)性。
研究人員通過計(jì)算所有500萬個(gè)文檔在所有查詢組合中的Pearson相關(guān)系數(shù)發(fā)現(xiàn),對(duì)于相同類型推理任務(wù)的許多查詢之間,文檔評(píng)分存在顯著的正相關(guān)性;而對(duì)于大多數(shù)事實(shí)性查詢或不同類型推理查詢的組合,這種相關(guān)性則顯著缺失。這一現(xiàn)象表明,許多文檔對(duì)同類型推理問題具有類似的影響。
考慮到每種類型的推理查詢都需要將相同的程序應(yīng)用于不同的數(shù)字,正相關(guān)性進(jìn)一步說明,推理查詢的文檔影響評(píng)分能夠捕捉到程序性知識(shí)。
隨后,研究人員通過使用一組對(duì)照查詢(看起來相似,但不需要任何推理)并重復(fù)整個(gè)實(shí)驗(yàn),否定了「推理問題之間的相關(guān)性僅由表面相似性導(dǎo)致」的假設(shè)(大多未觀察到相關(guān)性)。
此外,研究人員還通過不同查詢集之間高相關(guān)性或低相關(guān)性的具體示例,進(jìn)一步驗(yàn)證了程序性知識(shí)的作用——部分相關(guān)性由推理步驟的格式?jīng)Q定,而大部分則由推理程序本身決定。
發(fā)現(xiàn) 2:與回答事實(shí)性問題相比,模型在進(jìn)行推理任務(wù)時(shí),平均每生成一個(gè)單位信息(nat)所依賴的單個(gè)文檔程度較低,同時(shí)總影響的波動(dòng)性也更小。
這表明模型傾向于從更廣泛且更通用的一組文檔中進(jìn)行泛化。這一現(xiàn)象在更大的模型中表現(xiàn)得尤為明顯。
具體來說,研究人員從兩個(gè)模型中觀察到以下兩點(diǎn):
1. 首先,對(duì)于大多數(shù)事實(shí)性問題,在排名的任何部分,總影響均高于推理問題。這表明,事實(shí)性問題對(duì)文檔的依賴更為集中。
2. 其次,在不同的事實(shí)性查詢中,相同排名位置的文檔影響力變化更大。而對(duì)于少數(shù)事實(shí)性查詢,其總影響實(shí)際上低于推理查詢。
第一個(gè)結(jié)果表明,平均而言,模型在生成推理過程軌跡時(shí),對(duì)單個(gè)文檔的依賴程度低于回答事實(shí)性問題。
第二個(gè)結(jié)果表明,對(duì)于事實(shí)性問題,模型更依賴于「特定的」且不常見的文檔。換言之,對(duì)于一個(gè)事實(shí)性問題,預(yù)訓(xùn)練樣本中是否包含相對(duì)高影響力的文檔更依賴于偶然性
分析影響大小的另一種方法是觀察排名中影響的分布。
結(jié)果顯示,文檔排名的頂部遵循冪律分布,其特征是在對(duì)數(shù)-對(duì)數(shù)空間中,排名與每單位信息增量(nat)的影響之間呈線性關(guān)系。
其中,對(duì)于35B模型的推理問題,其斜率比事實(shí)性問題略陡。
這意味著,在35B模型的推理問題中,排名頂部所包含的正面影響百分比,增長得比事實(shí)性問題更快。
也就是說,推理問題的影響更集中于排名前列。
對(duì)于7B模型,模型正確回答推理問題的斜率平均也比事實(shí)性問題略陡,但當(dāng)比較所有事實(shí)性問題和推理問題的斜率時(shí),這種效果消失了。
這表明,對(duì)于35B模型,排名頂部序列所覆蓋的總正面影響百分比在推理問題中高于事實(shí)性問題。
如果比較模型之間的結(jié)果,35B模型在整個(gè)排名中的影響和波動(dòng)性差異更為顯著。
即使僅對(duì)兩個(gè)模型相同的查詢進(jìn)行比較,這種效果依然存在,這表明較大模型的數(shù)據(jù)效率更高。
2. 定性分析
除了定量分析之外,研究人員還對(duì)每個(gè)查詢的排名頂部進(jìn)行了三項(xiàng)定性分析:
首先,搜索答案;
其次,分析文檔與推理查詢之間的關(guān)系;
最后,調(diào)查這些文檔來源于哪些數(shù)據(jù)集。
為了過濾掉一些無關(guān)信息,研究人員將影響分?jǐn)?shù)除以文檔梯度范數(shù)并重新排序。
發(fā)現(xiàn) 3:對(duì)于事實(shí)性問題,答案相對(duì)較頻繁地出現(xiàn)在最具影響力的文檔中,而對(duì)于推理問題,幾乎不會(huì)出現(xiàn)。
為了在排名靠前的文檔中手動(dòng)找到查詢問題的答案,研究人員為每個(gè)查詢構(gòu)建了一組關(guān)鍵詞。如果答案存在于文檔中,這些關(guān)鍵詞應(yīng)當(dāng)出現(xiàn)在文檔中。
例如,對(duì)于事實(shí)性查詢,關(guān)鍵詞包括「tallest」、「highest」、「Mount Everest」(珠穆朗瑪峰)、「29029」和「8848」。而對(duì)于推理查詢,則為每個(gè)查詢構(gòu)建了更多的關(guān)鍵詞,如「7?4」、「3」、「21」、「3?7」,以及將操作替換為諸如「minus」(減)和「times」(乘)等單詞。
此外,研究人員為Command R+模型設(shè)計(jì)了一套提示詞,用于在查詢-文檔對(duì)中尋找答案,并利用它在每個(gè)查詢的前500個(gè)文檔中搜索答案,而不依賴關(guān)鍵詞重疊。
然后,手動(dòng)檢查這些命中,并記錄包含查詢答案的文檔。(Command R+不僅找到了所有手動(dòng)識(shí)別出的答案,并且還發(fā)現(xiàn)了更多答案。)
最后,將關(guān)鍵詞重疊搜索與Command R+提示詞相結(jié)合,應(yīng)用于2.5B預(yù)訓(xùn)練token的子集,以驗(yàn)證答案是否存在于整個(gè)數(shù)據(jù)集中,而不只是前500個(gè)文檔。
結(jié)果顯示,對(duì)于7B模型,可以在前500個(gè)文檔中找到55%的事實(shí)性查詢的答案,而推理查詢僅有7.4%找到了答案。
對(duì)于35B模型,事實(shí)性查詢的答案在最具影響力的文檔中出現(xiàn)的概率為30%,而推理集合中則完全沒有答案。
有趣的是,事實(shí)性問題的答案經(jīng)常以不同的語言出現(xiàn),例如西班牙語或葡萄牙語。
為了證偽「推理問題的答案未出現(xiàn)是因?yàn)樗鼈儾淮嬖谟?00萬個(gè)文檔集合中」這一假設(shè),研究人員在500萬文檔的隨機(jī)子集中重復(fù)了上述關(guān)鍵詞搜索。
在20個(gè)算術(shù)查詢中,在未出現(xiàn)在前500個(gè)文檔中的文檔中識(shí)別出了13個(gè)推理步驟的答案,以及1個(gè)完整答案,并預(yù)計(jì)還存在更多未被關(guān)鍵詞搜索捕捉到的答案。
對(duì)于斜率和線性方程查詢,找到了3個(gè)未出現(xiàn)在前0.01%文檔中的推理步驟答案。
發(fā)現(xiàn) 4:對(duì)于推理查詢,具有影響力的文檔通常也在進(jìn)行類似的逐步推理,例如算術(shù)推理。此外,這些文檔通常通過代碼或數(shù)學(xué)方法實(shí)現(xiàn)了推理問題的解決方案。
對(duì)于斜率查詢,許多高影響力文檔展示了如何通過代碼或數(shù)學(xué)計(jì)算兩點(diǎn)之間的斜率。
對(duì)于7B模型,在20個(gè)查詢中的16個(gè)查詢中出現(xiàn)在前100個(gè)文檔中(共出現(xiàn)38次);而對(duì)于35B模型,這類文檔在所有查詢中都出現(xiàn)了(共出現(xiàn)51次)。
此外,研究人員還手動(dòng)找到了7個(gè)通過代碼實(shí)現(xiàn)斜率計(jì)算的文檔,以及13個(gè)展示斜率計(jì)算公式的文檔。7B模型依賴于其中的18個(gè)文檔,而35B模型依賴于其中的8個(gè)。
以下是一個(gè)通過JavaScript(左)和數(shù)學(xué)公式(右)實(shí)現(xiàn)解決方案的高影響力文檔的示例:
隨后,研究人員提示Command R+對(duì)每個(gè)查詢的前500個(gè)文檔進(jìn)行更詳細(xì)的特征化分析。
結(jié)果顯示,這些文檔中通常涉及對(duì)其他數(shù)字進(jìn)行類似的算術(shù)操作(如更大或更小的數(shù)字)、對(duì)相似數(shù)字進(jìn)行類似的算術(shù)操作(如斜率問題),或?qū)ο嗨茢?shù)字進(jìn)行類似的代數(shù)操作(如求解線性方程)。
發(fā)現(xiàn) 5:對(duì)于事實(shí)性查詢,最具影響力的數(shù)據(jù)來源包括Wikipedia和trivia,而對(duì)于推理查詢,主要來源包括數(shù)學(xué)、StackExchange、arXiv和代碼。
研究人員分析了代表最具影響力文檔的源數(shù)據(jù)集的類型,并將該計(jì)數(shù)與預(yù)訓(xùn)練分布進(jìn)行了比較。
作為數(shù)據(jù)來源的StackExchange,在排名頂部的數(shù)據(jù)中,其影響力是從預(yù)訓(xùn)練分布中隨機(jī)采樣時(shí)的十倍。其他代碼來源在從k=50到k=50000的范圍內(nèi),其影響力是隨機(jī)采樣時(shí)的兩倍。
類似的模式也適用于排名底部的數(shù)據(jù)。
五、局限性
研究者也承認(rèn),方法存在重要的局限性。
最顯著的一點(diǎn)就是,沒有計(jì)算整個(gè)訓(xùn)練集的影響,因?yàn)檫@在計(jì)算上是不可行的。
因此,研究結(jié)果可能存在另一種解釋,會(huì)讓人得出相反的結(jié)論:模型在推理時(shí)依賴的數(shù)據(jù)如此稀疏,以至于在隨機(jī)抽取的25億token中,任何一個(gè)推理查詢都未能浮現(xiàn)出相對(duì)高影響力的樣本。
這是否意味著,LLM在推理時(shí)會(huì)依賴稀疏和罕見的文檔呢?
也就是說,他們實(shí)際上是在研究一組對(duì)推理相對(duì)無影響的文檔,而如果觀察整個(gè)預(yù)訓(xùn)練數(shù)據(jù),推理路徑的答案可能會(huì)非常具有影響力。
然而,研究者認(rèn)為這種解釋不太可能,原因有三。
第一,定性分析表明,推理問題的高影響數(shù)據(jù)直觀上高度相關(guān),并且許多推理路徑的答案是25億token的一部分,只是對(duì)推理的影響力不高;第二,不同推理任務(wù)的影響分?jǐn)?shù)之間的相關(guān)性顯著;第三,可以確認(rèn)這些結(jié)果不適用于表面上與推理查詢相似但不需要逐步推理的對(duì)照查詢。
此外,模型從如此稀少的數(shù)據(jù)中,學(xué)習(xí)一種最簡單形式的數(shù)學(xué)推理(即對(duì)小數(shù)字的減法和乘法),可能性也極小。
另一個(gè)局限,就是沒有研究監(jiān)督微調(diào)階段。
綜上所述,可以認(rèn)為,結(jié)果表明了一種依賴程序性知識(shí)的泛化策略。
盡管如此,對(duì)于這類可解釋性研究的本質(zhì)是,他們也只能提供證據(jù),而非證明。
參考資料:
https://arxiv.org/abs/2411.12580
編輯:Aeneas 好困
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!