亚洲无砖码砖专区2024公司,91成人免费视频,国产大量自拍视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

AI做數(shù)學(xué)學(xué)會(huì)「動(dòng)腦子」！ UCL等發(fā)現(xiàn)LLM「程序性知識(shí)」，推理絕不是背答案

新智元

2024-12-03

0 評(píng)論 961 瀏覽 0 收藏

35 分鐘

LLM在推理時(shí)，竟是通過一種「程序性知識(shí)」，而非照搬答案？可以認(rèn)為這是一種變相的證明：LLM的確具備某種推理能力。然而存在爭議的是，這項(xiàng)研究只能提供證據(jù)，而非證明。

LLM，究竟會(huì)不會(huì)推理？

就在剛剛，UCL、Cohere等機(jī)構(gòu)的研究人員發(fā)現(xiàn)：在LLM執(zhí)行推理任務(wù)時(shí)，竟存在著一種「程序性知識(shí)」。

論文地址：https://arxiv.org/abs/2411.12580

這項(xiàng)工作已經(jīng)登上了Hacker News的熱榜。

跟很多人想象的不同，LLM在推理時(shí)，并不是使用簡單的檢索。

真相是，LLM在推理任務(wù)中進(jìn)行泛化時(shí)，依賴的是文檔中的「程序性知識(shí)」，使用可概括的策略，來綜合推理任務(wù)的解決方案。

研究發(fā)現(xiàn)，在涉及「世界上最長的河流」、「人體最常見的元素」這類問題時(shí)，模型所依賴的數(shù)據(jù)集并不相同。

然而一旦涉及到數(shù)學(xué)題這類推理問題，LLM卻使用了某種策略，從文檔中綜合出了一種「程序性知識(shí)」。

推理集中的示例，關(guān)于「求解線性方程中的x」有人表示，既然LLM不可能在訓(xùn)練數(shù)據(jù)中找到每一個(gè)問題的例子，那就可以認(rèn)為，LLM已經(jīng)在進(jìn)行某種形式的推斷，以創(chuàng)造出對(duì)所提問題的解決方案。

更有趣的是，此前蘋果的研究者曾在一篇論文中發(fā)現(xiàn)，GPT-4o、o1、Llama、Phi、Gemma和Mistral等模型，都未被發(fā)現(xiàn)任何形式推理的證據(jù)，而更像是復(fù)雜的模式匹配器。

只要給數(shù)學(xué)題換個(gè)皮，對(duì)無關(guān)緊要的信息進(jìn)行修改，LLM就不會(huì)做了。

而UCL這項(xiàng)工作的結(jié)果，并未和蘋果的這篇論文發(fā)生矛盾。

有人根據(jù)這項(xiàng)研究的結(jié)果，做出這樣的總結(jié)：LLM不適合推理，但非常適合充當(dāng)一種「編譯器」層，彌合自然語言和SQ、prolog、python、lean等形式語言的差距。再對(duì)形式語言層的結(jié)果和輸出進(jìn)行綜合，這基本上就是智能體了。

有網(wǎng)友分析表示，這個(gè)過程并不是「學(xué)習(xí)如何解決問題」的泛化，而是更具體的：「神經(jīng)網(wǎng)絡(luò)被訓(xùn)練去模仿人類在解決特定問題時(shí)展示的逐步過程」。

也就是說，LLM是通過觀察人類程序化解決問題的示例，從而復(fù)制類似的推理。

另外還有一些網(wǎng)友更加犀利：「大多數(shù)人活了幾十年都搞不懂該如何正確地推理，并且經(jīng)常陷入邏輯謬誤當(dāng)中；現(xiàn)在竟然覺得自己可以評(píng)判LLM是不是具有推理能力了？」

一、「程序性知識(shí)」被發(fā)現(xiàn)了

長久以來，LLM的能力和局限性，令人著迷卻又矛盾。

一方面，LLM解決一般問題的能力十分驚艷?？闪硪环矫?，跟人類相比，它們表現(xiàn)出的推理缺陷又令人啼笑皆非，因此讓人懷疑：它們的泛化策略是否具有穩(wěn)健性？

為了探討LLM究竟采用何種泛化策略，研究人員對(duì)LLM在執(zhí)行推理任務(wù)時(shí)依賴的預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行了研究。

在兩種不同規(guī)模的模型（7B和35B）及其25億預(yù)訓(xùn)練token中，研究人員識(shí)別出哪些文檔對(duì)三種簡單數(shù)學(xué)推理任務(wù)的模型輸出產(chǎn)生了影響，并將其與回答事實(shí)性問題時(shí)具有影響力的數(shù)據(jù)進(jìn)行了對(duì)比。

就是在這個(gè)過程中，他們發(fā)現(xiàn)了「程序性知識(shí)」的存在！

具體來說，雖然模型在回答每個(gè)事實(shí)性問題時(shí)依賴的數(shù)據(jù)集大多是不同的，但在同一任務(wù)中的不同推理問題上，一個(gè)文檔確往往表現(xiàn)出了類似的影響力。

事實(shí)控制集的示例，類似于7B事實(shí)查詢集中關(guān)于「世界上最高的山」的問題，但不需要任何事實(shí)回憶

另外他們還發(fā)現(xiàn)，對(duì)于事實(shí)性問題，答案通常出現(xiàn)在最具影響力的數(shù)據(jù)中。

然而，對(duì)于推理問題，答案通常不會(huì)出現(xiàn)在高度影響力的數(shù)據(jù)中，中間推理步驟的答案亦是如此。

原因?yàn)楹危抗?，還是和「程序性知識(shí)」有關(guān)。

對(duì)此，研究人員對(duì)推理問題的高排名文檔進(jìn)行了定性分析后，確認(rèn)了這些具有影響力的文檔的確通常都是包含程序性知識(shí)的，比如展示了如何使用公式或代碼求解的過程。

總之，模型在推理時(shí)并不是簡單檢索，而更像是使用一種可泛化的策略，即從進(jìn)行類似推理的文檔中綜合程序性知識(shí)。

推理控制集的示例，表明上類似于斜率查詢，但不需要任何推理

二、LLM是如何從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)推理的？

LLM在推理中，是否真正理解了問題呢？

許多研究一致發(fā)現(xiàn)：LLM的能力，嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)中類似問題的頻率。

這就牽出了「數(shù)據(jù)污染」的問題：基準(zhǔn)數(shù)據(jù)往往會(huì)出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)集中。

在機(jī)器學(xué)習(xí)中，可以將測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分離來衡量泛化能力，但當(dāng)前先進(jìn)模型設(shè)計(jì)中使用的數(shù)萬億token，已經(jīng)已無法合理地與基準(zhǔn)測(cè)試數(shù)據(jù)完全分離了。

許多研究都表明，相當(dāng)多常見的基準(zhǔn)測(cè)試，都含有大量污染數(shù)據(jù)。即使是經(jīng)改寫的基準(zhǔn)數(shù)據(jù)，也可能會(huì)規(guī)避基于N-gram的檢測(cè)方法，對(duì)性能產(chǎn)生影響。

LLM究竟是在何種情況下，依賴污染數(shù)據(jù)進(jìn)行推理的呢？

這個(gè)問題，又引發(fā)出了另一個(gè)核心問題——LLM是如何從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)推理的？

因此，在這項(xiàng)研究中，研究人員們重點(diǎn)專注的是語言模型用于泛化的預(yù)訓(xùn)練數(shù)據(jù)，而非直接解釋模型的權(quán)重。

推理集中的示例，涉及計(jì)算穿過兩點(diǎn)直線的斜率

哪些數(shù)據(jù)會(huì)影響模式生成的推理過程？這些數(shù)據(jù)如何與所解決的具體問題相關(guān)？

模型是否僅僅從已見過的預(yù)訓(xùn)練數(shù)據(jù)中「提取」答案并重新整合，還是在泛化中采用了一種更為穩(wěn)健的策略？

為此，研究人員們借助了一種來自魯棒統(tǒng)計(jì)學(xué)的方法，讓它適配于大規(guī)模Transformer，以計(jì)算預(yù)訓(xùn)練文檔對(duì)訓(xùn)練模型中提示詞-完成對(duì)（prompt-completions pairs）概率的影響。

可以猜測(cè)，在極端情況下，回答推理問題的語言模型可能嚴(yán)重依賴于從預(yù)訓(xùn)練數(shù)據(jù)的特定文檔中檢索的參數(shù)化知識(shí)。這些文檔包含所需檢索的信息（即推理軌跡），對(duì)模型的輸出貢獻(xiàn)顯著，相比之下，許多其他文檔的作用則微乎其微。

相反，在另一種極端情況下，模型可能從與問題更抽象相關(guān)的廣泛文檔中汲取信息，每份文檔對(duì)許多不同問題都會(huì)產(chǎn)生類似影響，但對(duì)最終輸出的貢獻(xiàn)相對(duì)較小。而泛化能力更強(qiáng)的推理應(yīng)更類似于后一種策略。

事實(shí)是不是如此呢？

他們研究了對(duì)一組事實(shí)性問題和推理問題（稱為「查詢」）具有影響力的預(yù)訓(xùn)練數(shù)據(jù)（稱為「文檔」）。

推理問題涵蓋三種數(shù)學(xué)任務(wù)：兩步算術(shù)、斜率計(jì)算和線性方程求解。

這些任務(wù)代表了逐步推理不同層次的挑戰(zhàn)，而事實(shí)性問題則需要從參數(shù)化知識(shí)中檢索答案。

對(duì)兩種LLM（7B和35B）及其25億預(yù)訓(xùn)練token進(jìn)行實(shí)驗(yàn)后，他們的發(fā)現(xiàn)如下——

1. 文檔中的程序性知識(shí)，驅(qū)動(dòng)了對(duì)推理過程軌跡的影響

一個(gè)文檔對(duì)某個(gè)查詢推理過程軌跡的影響力，可以強(qiáng)烈預(yù)測(cè)該文檔對(duì)相同數(shù)學(xué)任務(wù)的另一個(gè)查詢的影響力。

相比之下，這種現(xiàn)象在事實(shí)性查詢中卻并不成立。

這表明，對(duì)于需要將相同程序應(yīng)用于不同數(shù)字的問題，文檔通常具有類似的貢獻(xiàn)。

在斜率計(jì)算的查詢中，這種相關(guān)性尤其顯著。在排名前0.002%的預(yù)訓(xùn)練數(shù)據(jù)中，多次發(fā)現(xiàn)了包含代碼或數(shù)學(xué)解題程序的文檔。

2. 在推理問題上，模型對(duì)單個(gè)文檔的依賴程度較低，且依賴的文檔集合更為廣泛

研究人員還發(fā)現(xiàn)，對(duì)于模型生成的每單位查詢信息，文檔的影響力在推理問題上通常比事實(shí)性問題低得多。

此外，文檔集合的整體影響力波動(dòng)性較小。

前者可以表明，在生成推理過程軌跡時(shí)，模型對(duì)每個(gè)單獨(dú)文檔的依賴程度低于事實(shí)性檢索。

而后者表明，對(duì)于一個(gè)隨機(jī)的25億預(yù)訓(xùn)練token子集，是否包含高度影響力的文檔對(duì)事實(shí)性問題的影響更具偶然性，而對(duì)推理問題則更為穩(wěn)定。

總之，這就表明，模型在推理問題上更傾向于從更廣泛的文檔集合中泛化，而對(duì)單個(gè)文檔的依賴較少。

3. 對(duì)于事實(shí)性問題，答案通常出現(xiàn)在高度影響力的文檔中，而推理問題則不然

查看每個(gè)查詢中排名前500（排名前0.01%）的影響力文檔后，研究人員發(fā)現(xiàn)，事實(shí)性問題的答案相對(duì)較常出現(xiàn)（7B 模型中占55%的查詢，35B模型中占30%）。

而在推理問題中，則幾乎沒有，即使他們確實(shí)在更大的25億token數(shù)據(jù)集中找到了答案。

4. 代碼對(duì)于數(shù)學(xué)推理非常重要

在推理查詢的正負(fù)影響力排名的頂端部分，與訓(xùn)練分布相比，代碼數(shù)據(jù)的比例明顯過高。

這個(gè)研究結(jié)果表明，推理的泛化策略，不同于從預(yù)訓(xùn)練期間形成的參數(shù)化知識(shí)中進(jìn)行檢索。

相反，模型的學(xué)習(xí)，是從涉及類似推理過程的文檔中提取程序性知識(shí)，無論是以程序的一般描述形式，還是以類似程序的應(yīng)用形式。

這個(gè)發(fā)現(xiàn)告訴我們：或許我們并不需要在預(yù)訓(xùn)練數(shù)據(jù)中涵蓋所有可能的情況。

相反，專注于展示跨多樣推理任務(wù)的程序性高質(zhì)量數(shù)據(jù)可能更為有效，因?yàn)檫@有助于降低預(yù)訓(xùn)練數(shù)據(jù)的冗余性。

而代碼在所有任務(wù)中發(fā)揮的重要作用，也引發(fā)了一個(gè)有趣的問題：是否存在某種預(yù)訓(xùn)練數(shù)據(jù)類型（例如代碼），能幫助模型（尤其是更大的模型），來學(xué)習(xí)多個(gè)任務(wù)？

如果能深入理解程序性泛化的范圍，我們未來的預(yù)訓(xùn)練策略就會(huì)得到更多的指導(dǎo)，還能在數(shù)據(jù)選擇中確定重點(diǎn)。

三、文檔對(duì)補(bǔ)全的影響

1. 影響函數(shù)

文檔對(duì)補(bǔ)全的影響影響函數(shù)給定一個(gè)預(yù)訓(xùn)練模型θ^u，該模型參數(shù)化了一個(gè)基于提示詞

的下一個(gè)token的分布。

其中，y_c = {y_1, …, y_m} 是補(bǔ)全，y_p = {y_1, …, y_n} 是提示詞，u表示參數(shù)未必訓(xùn)練到收斂，研究人員希望找到來自預(yù)訓(xùn)練數(shù)據(jù)集

中對(duì)補(bǔ)全產(chǎn)生影響的數(shù)據(jù)。

也就是說，研究人員想知道，預(yù)訓(xùn)練數(shù)據(jù)集中哪些樣本「導(dǎo)致」了一個(gè)補(bǔ)全。

為此，他們使用了針對(duì)大規(guī)模Transformer的EK-FAC影響函數(shù)。

參數(shù) θ^u通常通過對(duì)目標(biāo)函數(shù)執(zhí)行基于梯度的迭代算法，并根據(jù)某些標(biāo)準(zhǔn)停止來獲得。

研究人員希望了解訓(xùn)練文檔x_j∈D對(duì)參數(shù)θ^u的影響（通過鏈?zhǔn)椒▌t，也可重新表述為「對(duì)θ^u的任何連續(xù)可微函數(shù)的影響」）。

研究人員希望，可以通過從原始訓(xùn)練集中移除x_j，重新訓(xùn)練模型，并將結(jié)果參數(shù)集（或其函數(shù)）與原始訓(xùn)練模型進(jìn)行比較，從而精確計(jì)算影響。

然而，對(duì)于任何有意義數(shù)量的文檔和參數(shù)來說，這種方法都是不可行的。

為此，他們利用影響函數(shù)通過對(duì)響應(yīng)函數(shù)進(jìn)行泰勒展開，來估計(jì)這種反事實(shí)：

其中 L(·) 是一個(gè)損失函數(shù)，例如交叉熵?fù)p失。

響應(yīng)函數(shù)在ε=0附近的一階泰勒近似，用于推導(dǎo)當(dāng)ε改變時(shí)最優(yōu)參數(shù)如何變化，而ε的變化會(huì)改變想要分析的文檔的權(quán)重。

通過隱函數(shù)定理，影響定義為：

其中

是預(yù)訓(xùn)練目標(biāo)的Hessian矩陣。

通過鏈?zhǔn)椒▌t，可以通過近似以下公式，來估計(jì)給定提示詞時(shí)訓(xùn)練文檔x = {x1, …, xk} 對(duì)補(bǔ)全的影響：

由于研究的是數(shù)十億參數(shù)D的模型，上述Hessian是不可計(jì)算的，因此，研究人員使用EK-FAC估計(jì)法來進(jìn)行估算。

它涉及估算兩個(gè)期望值

其中A表示模型的激活。

為了使這種估算可行，研究人員在所有估算中做出了一些簡化假設(shè)，例如假設(shè)層與層之間相互獨(dú)立，并且只考慮 Transformer層的MLP參數(shù)。

近似假設(shè)列表

2. 應(yīng)用EK-FAC

先前的研究表明，與其他類型的影響函數(shù)相比，EK-FAC影響函數(shù)能夠更準(zhǔn)確地估算由響應(yīng)函數(shù)給出的反事實(shí)。

然而，除了對(duì)語言模型補(bǔ)全的影響，研究人員還關(guān)注對(duì)訓(xùn)練語言模型在回答問題時(shí)準(zhǔn)確性的影響。

因?yàn)槟壳吧袩o研究表明，影響函數(shù)可以估算由下一詞預(yù)測(cè)生成文本的底層準(zhǔn)確性的影響，因此只能計(jì)算對(duì)連續(xù)可微函數(shù)的影響。

因此，研究人員選擇交叉熵?fù)p失函數(shù)（公式1中的f）作為連續(xù)可微函數(shù)。

通過這種方式計(jì)算出的影響，可以揭示對(duì)7B模型在推理和閱讀理解任務(wù)中準(zhǔn)確性具有因果影響的文檔。

具體來說，如果根據(jù)文檔的影響從微調(diào)數(shù)據(jù)中移除文檔并重新訓(xùn)練模型，其準(zhǔn)確性下降的幅度顯著高于隨機(jī)移除相同數(shù)量的文檔，或者使用梯度相似性移除相同數(shù)量的文檔。

同時(shí)，可以通過展示EK-FAC對(duì)Hessian的估算顯著優(yōu)于僅使用一階信息的方法，來論證使用EK-FAC估算的合理性。

由于只能對(duì)預(yù)訓(xùn)練數(shù)據(jù)樣本進(jìn)行一次循環(huán)，并且只能在內(nèi)存中存儲(chǔ)一個(gè)查詢梯度（其內(nèi)存復(fù)雜度與模型本身相同），研究人員使用了奇異值分解（SVD）。

由于他們采用了一種基于概率算法的近似SVD，這顯著加快了查詢梯度的計(jì)算速度。

通過近似公式1來為預(yù)訓(xùn)練數(shù)據(jù)D中的文檔計(jì)算得分，這些得分代表了它們?cè)诮o定提示詞y_p時(shí)對(duì)補(bǔ)全y_c的影響。

在由響應(yīng)函數(shù)近似的反事實(shí)問題中，影響得分為1，表示序列y_c的對(duì)數(shù)概率增加了1。

為了比較不同補(bǔ)全（和token長度）的影響得分，研究人員通過補(bǔ)全y_c的信息量對(duì)查詢得分進(jìn)行歸一化，信息量以nat為單位衡量。

根據(jù)影響得分，他們對(duì)文檔進(jìn)行了從正到負(fù)的排名，其中得分可以解釋為每nat查詢信息增加（或減少）的對(duì)數(shù)概率。

四、實(shí)驗(yàn)與結(jié)果

實(shí)驗(yàn)階段，研究人員比較了通過影響函數(shù)對(duì)推理問題生成的預(yù)訓(xùn)練數(shù)據(jù)排名順序（從最正面影響到最負(fù)面影響）與事實(shí)性問題排名順序的差異（事實(shí)性問題只能通過檢索參數(shù)化知識(shí)來回答）。

1. 定量分析

發(fā)現(xiàn) 1：對(duì)于底層推理任務(wù)相同的查詢，其文檔影響評(píng)分之間存在顯著的正相關(guān)性。

這表明，這些文檔對(duì)需要相同程序但應(yīng)用于不同數(shù)字的問題具有相關(guān)性。

如果模型依賴于包含「通用」知識(shí)的文檔，而這些知識(shí)適用于同一任務(wù)的所有查詢，那么可以預(yù)期，這些查詢對(duì)應(yīng)的文檔影響評(píng)分之間會(huì)呈現(xiàn)顯著的相關(guān)性。

研究人員通過計(jì)算所有500萬個(gè)文檔在所有查詢組合中的Pearson相關(guān)系數(shù)發(fā)現(xiàn)，對(duì)于相同類型推理任務(wù)的許多查詢之間，文檔評(píng)分存在顯著的正相關(guān)性；而對(duì)于大多數(shù)事實(shí)性查詢或不同類型推理查詢的組合，這種相關(guān)性則顯著缺失。這一現(xiàn)象表明，許多文檔對(duì)同類型推理問題具有類似的影響。

考慮到每種類型的推理查詢都需要將相同的程序應(yīng)用于不同的數(shù)字，正相關(guān)性進(jìn)一步說明，推理查詢的文檔影響評(píng)分能夠捕捉到程序性知識(shí)。

隨后，研究人員通過使用一組對(duì)照查詢（看起來相似，但不需要任何推理）并重復(fù)整個(gè)實(shí)驗(yàn)，否定了「推理問題之間的相關(guān)性僅由表面相似性導(dǎo)致」的假設(shè)（大多未觀察到相關(guān)性）。

此外，研究人員還通過不同查詢集之間高相關(guān)性或低相關(guān)性的具體示例，進(jìn)一步驗(yàn)證了程序性知識(shí)的作用——部分相關(guān)性由推理步驟的格式?jīng)Q定，而大部分則由推理程序本身決定。

發(fā)現(xiàn) 2：與回答事實(shí)性問題相比，模型在進(jìn)行推理任務(wù)時(shí)，平均每生成一個(gè)單位信息（nat）所依賴的單個(gè)文檔程度較低，同時(shí)總影響的波動(dòng)性也更小。

這表明模型傾向于從更廣泛且更通用的一組文檔中進(jìn)行泛化。這一現(xiàn)象在更大的模型中表現(xiàn)得尤為明顯。

具體來說，研究人員從兩個(gè)模型中觀察到以下兩點(diǎn)：

1. 首先，對(duì)于大多數(shù)事實(shí)性問題，在排名的任何部分，總影響均高于推理問題。這表明，事實(shí)性問題對(duì)文檔的依賴更為集中。

2. 其次，在不同的事實(shí)性查詢中，相同排名位置的文檔影響力變化更大。而對(duì)于少數(shù)事實(shí)性查詢，其總影響實(shí)際上低于推理查詢。

第一個(gè)結(jié)果表明，平均而言，模型在生成推理過程軌跡時(shí)，對(duì)單個(gè)文檔的依賴程度低于回答事實(shí)性問題。

第二個(gè)結(jié)果表明，對(duì)于事實(shí)性問題，模型更依賴于「特定的」且不常見的文檔。換言之，對(duì)于一個(gè)事實(shí)性問題，預(yù)訓(xùn)練樣本中是否包含相對(duì)高影響力的文檔更依賴于偶然性

分析影響大小的另一種方法是觀察排名中影響的分布。

結(jié)果顯示，文檔排名的頂部遵循冪律分布，其特征是在對(duì)數(shù)-對(duì)數(shù)空間中，排名與每單位信息增量（nat）的影響之間呈線性關(guān)系。

其中，對(duì)于35B模型的推理問題，其斜率比事實(shí)性問題略陡。

這意味著，在35B模型的推理問題中，排名頂部所包含的正面影響百分比，增長得比事實(shí)性問題更快。

也就是說，推理問題的影響更集中于排名前列。

對(duì)于7B模型，模型正確回答推理問題的斜率平均也比事實(shí)性問題略陡，但當(dāng)比較所有事實(shí)性問題和推理問題的斜率時(shí)，這種效果消失了。

這表明，對(duì)于35B模型，排名頂部序列所覆蓋的總正面影響百分比在推理問題中高于事實(shí)性問題。

如果比較模型之間的結(jié)果，35B模型在整個(gè)排名中的影響和波動(dòng)性差異更為顯著。

即使僅對(duì)兩個(gè)模型相同的查詢進(jìn)行比較，這種效果依然存在，這表明較大模型的數(shù)據(jù)效率更高。

2. 定性分析

除了定量分析之外，研究人員還對(duì)每個(gè)查詢的排名頂部進(jìn)行了三項(xiàng)定性分析：

首先，搜索答案；

其次，分析文檔與推理查詢之間的關(guān)系；

最后，調(diào)查這些文檔來源于哪些數(shù)據(jù)集。

為了過濾掉一些無關(guān)信息，研究人員將影響分?jǐn)?shù)除以文檔梯度范數(shù)并重新排序。

發(fā)現(xiàn) 3：對(duì)于事實(shí)性問題，答案相對(duì)較頻繁地出現(xiàn)在最具影響力的文檔中，而對(duì)于推理問題，幾乎不會(huì)出現(xiàn)。

為了在排名靠前的文檔中手動(dòng)找到查詢問題的答案，研究人員為每個(gè)查詢構(gòu)建了一組關(guān)鍵詞。如果答案存在于文檔中，這些關(guān)鍵詞應(yīng)當(dāng)出現(xiàn)在文檔中。

例如，對(duì)于事實(shí)性查詢，關(guān)鍵詞包括「tallest」、「highest」、「Mount Everest」（珠穆朗瑪峰）、「29029」和「8848」。而對(duì)于推理查詢，則為每個(gè)查詢構(gòu)建了更多的關(guān)鍵詞，如「7?4」、「3」、「21」、「3?7」，以及將操作替換為諸如「minus」（減）和「times」（乘）等單詞。

此外，研究人員為Command R+模型設(shè)計(jì)了一套提示詞，用于在查詢-文檔對(duì)中尋找答案，并利用它在每個(gè)查詢的前500個(gè)文檔中搜索答案，而不依賴關(guān)鍵詞重疊。

然后，手動(dòng)檢查這些命中，并記錄包含查詢答案的文檔。（Command R+不僅找到了所有手動(dòng)識(shí)別出的答案，并且還發(fā)現(xiàn)了更多答案。）

最后，將關(guān)鍵詞重疊搜索與Command R+提示詞相結(jié)合，應(yīng)用于2.5B預(yù)訓(xùn)練token的子集，以驗(yàn)證答案是否存在于整個(gè)數(shù)據(jù)集中，而不只是前500個(gè)文檔。

結(jié)果顯示，對(duì)于7B模型，可以在前500個(gè)文檔中找到55%的事實(shí)性查詢的答案，而推理查詢僅有7.4%找到了答案。

對(duì)于35B模型，事實(shí)性查詢的答案在最具影響力的文檔中出現(xiàn)的概率為30%，而推理集合中則完全沒有答案。

有趣的是，事實(shí)性問題的答案經(jīng)常以不同的語言出現(xiàn)，例如西班牙語或葡萄牙語。

為了證偽「推理問題的答案未出現(xiàn)是因?yàn)樗鼈儾淮嬖谟?00萬個(gè)文檔集合中」這一假設(shè)，研究人員在500萬文檔的隨機(jī)子集中重復(fù)了上述關(guān)鍵詞搜索。

在20個(gè)算術(shù)查詢中，在未出現(xiàn)在前500個(gè)文檔中的文檔中識(shí)別出了13個(gè)推理步驟的答案，以及1個(gè)完整答案，并預(yù)計(jì)還存在更多未被關(guān)鍵詞搜索捕捉到的答案。

對(duì)于斜率和線性方程查詢，找到了3個(gè)未出現(xiàn)在前0.01%文檔中的推理步驟答案。

發(fā)現(xiàn) 4：對(duì)于推理查詢，具有影響力的文檔通常也在進(jìn)行類似的逐步推理，例如算術(shù)推理。此外，這些文檔通常通過代碼或數(shù)學(xué)方法實(shí)現(xiàn)了推理問題的解決方案。

對(duì)于斜率查詢，許多高影響力文檔展示了如何通過代碼或數(shù)學(xué)計(jì)算兩點(diǎn)之間的斜率。

對(duì)于7B模型，在20個(gè)查詢中的16個(gè)查詢中出現(xiàn)在前100個(gè)文檔中（共出現(xiàn)38次）；而對(duì)于35B模型，這類文檔在所有查詢中都出現(xiàn)了（共出現(xiàn)51次）。

此外，研究人員還手動(dòng)找到了7個(gè)通過代碼實(shí)現(xiàn)斜率計(jì)算的文檔，以及13個(gè)展示斜率計(jì)算公式的文檔。7B模型依賴于其中的18個(gè)文檔，而35B模型依賴于其中的8個(gè)。

以下是一個(gè)通過JavaScript（左）和數(shù)學(xué)公式（右）實(shí)現(xiàn)解決方案的高影響力文檔的示例：

隨后，研究人員提示Command R+對(duì)每個(gè)查詢的前500個(gè)文檔進(jìn)行更詳細(xì)的特征化分析。

結(jié)果顯示，這些文檔中通常涉及對(duì)其他數(shù)字進(jìn)行類似的算術(shù)操作（如更大或更小的數(shù)字）、對(duì)相似數(shù)字進(jìn)行類似的算術(shù)操作（如斜率問題），或?qū)ο嗨茢?shù)字進(jìn)行類似的代數(shù)操作（如求解線性方程）。

發(fā)現(xiàn) 5：對(duì)于事實(shí)性查詢，最具影響力的數(shù)據(jù)來源包括Wikipedia和trivia，而對(duì)于推理查詢，主要來源包括數(shù)學(xué)、StackExchange、arXiv和代碼。

研究人員分析了代表最具影響力文檔的源數(shù)據(jù)集的類型，并將該計(jì)數(shù)與預(yù)訓(xùn)練分布進(jìn)行了比較。

作為數(shù)據(jù)來源的StackExchange，在排名頂部的數(shù)據(jù)中，其影響力是從預(yù)訓(xùn)練分布中隨機(jī)采樣時(shí)的十倍。其他代碼來源在從k=50到k=50000的范圍內(nèi)，其影響力是隨機(jī)采樣時(shí)的兩倍。

類似的模式也適用于排名底部的數(shù)據(jù)。

五、局限性

研究者也承認(rèn)，方法存在重要的局限性。

最顯著的一點(diǎn)就是，沒有計(jì)算整個(gè)訓(xùn)練集的影響，因?yàn)檫@在計(jì)算上是不可行的。

因此，研究結(jié)果可能存在另一種解釋，會(huì)讓人得出相反的結(jié)論：模型在推理時(shí)依賴的數(shù)據(jù)如此稀疏，以至于在隨機(jī)抽取的25億token中，任何一個(gè)推理查詢都未能浮現(xiàn)出相對(duì)高影響力的樣本。

這是否意味著，LLM在推理時(shí)會(huì)依賴稀疏和罕見的文檔呢？

也就是說，他們實(shí)際上是在研究一組對(duì)推理相對(duì)無影響的文檔，而如果觀察整個(gè)預(yù)訓(xùn)練數(shù)據(jù)，推理路徑的答案可能會(huì)非常具有影響力。

然而，研究者認(rèn)為這種解釋不太可能，原因有三。

第一，定性分析表明，推理問題的高影響數(shù)據(jù)直觀上高度相關(guān)，并且許多推理路徑的答案是25億token的一部分，只是對(duì)推理的影響力不高；第二，不同推理任務(wù)的影響分?jǐn)?shù)之間的相關(guān)性顯著；第三，可以確認(rèn)這些結(jié)果不適用于表面上與推理查詢相似但不需要逐步推理的對(duì)照查詢。

此外，模型從如此稀少的數(shù)據(jù)中，學(xué)習(xí)一種最簡單形式的數(shù)學(xué)推理（即對(duì)小數(shù)字的減法和乘法），可能性也極小。

另一個(gè)局限，就是沒有研究監(jiān)督微調(diào)階段。

綜上所述，可以認(rèn)為，結(jié)果表明了一種依賴程序性知識(shí)的泛化策略。

盡管如此，對(duì)于這類可解釋性研究的本質(zhì)是，他們也只能提供證據(jù)，而非證明。

參考資料：

https://arxiv.org/abs/2411.12580

編輯：Aeneas 好困
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號(hào)：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App