什么是大模型幻覺?應(yīng)該如何解決?

0 評論 2663 瀏覽 6 收藏 6 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

自從大模型發(fā)布后,幻覺問題就一直如影隨形沒能得到妥善的解決。這篇文章,作者就分析了大模型幻覺的原因和解決方法,供大家參考。

一、什么是大模型幻覺?

語言模型的幻覺(Hallucination)指的是模型生成了不符合事實或毫無根據(jù)的信息。這種現(xiàn)象在自然語言處理(NLP)任務(wù)中尤其常見,如機(jī)器翻譯、文本生成和問答系統(tǒng)。

比如:用戶問模型:“秦始皇為什么喜歡用蘋果手機(jī),為什么不喜歡用安卓手機(jī)呢?”

在還沒有訓(xùn)練的很完善的大模型就可能會出現(xiàn)一本正經(jīng)的回答關(guān)于秦始皇喜歡用什么手機(jī)的問題,也就是我們常說的“一本正經(jīng)的胡說八道”。這就是大模型產(chǎn)生的幻覺。

那么大模型的幻覺是怎么來的?我們應(yīng)該如何解決呢?

二、大模型幻覺是怎么來的

大模型的幻覺主要來自三個方面:

1)訓(xùn)練數(shù)據(jù)的局限性

當(dāng)我們深入研究大模型的訓(xùn)練流程時,我們會發(fā)現(xiàn),數(shù)據(jù)是最關(guān)鍵的。在預(yù)訓(xùn)練階段,我們無法控制數(shù)據(jù)的來源,因為網(wǎng)上充滿了隨機(jī)網(wǎng)頁內(nèi)容,很多內(nèi)容可能并不準(zhǔn)確,我們無法完全清洗這些數(shù)據(jù),只能盡量讓語言更加通順。

而在sft階段時,當(dāng)訓(xùn)練數(shù)據(jù)中可能包含錯誤信息或誘導(dǎo)信息時,這些信息在模型生成時可能被誤用。另外一個,從數(shù)據(jù)覆蓋范圍來說,訓(xùn)練數(shù)據(jù)可能不完全覆蓋所有的事實或領(lǐng)域,導(dǎo)致模型在生成特定信息時缺乏足夠的背景知識。

2)大模型對自己高估

這主要是因為模型在預(yù)測 next token 的概率時,本質(zhì)上是在處理數(shù)據(jù)分布的問題,對于非常大的 LLMs 來說,正確答案和錯誤答案的分布熵可能是相似的,LLM 在生成錯誤答案時和生成正確答案時同樣自信。

另外,模型具有短期記憶,在模型在生成長文本時,可能無法完全記住并正確應(yīng)用之前提到的所有信息,導(dǎo)致信息不一致或錯誤。有時,模型也可能會被上下文誤導(dǎo),生成與上下文相關(guān)但不真實的信息。

3)模型架構(gòu)和訓(xùn)練方法

大語言模型的訓(xùn)練的最初期的目的是生成流暢和連貫的文本,而不是確保事實的準(zhǔn)確性。所以模型可能就會生成符合語言習(xí)慣但不符合實際情況的內(nèi)容。同理,盡管大語言模型可以處理大量數(shù)據(jù),這也使它們并不具備真正的常識推理能力,不能像人類一樣進(jìn)行邏輯驗證。就需要大量的標(biāo)注人員去訓(xùn)練他們使他們能夠準(zhǔn)確的進(jìn)行推理和保證事實的準(zhǔn)確性。

三、大模型幻覺如何解決

大模型自生產(chǎn)出來之后,幻覺就是一直出現(xiàn)的問題。大模型的幻覺,極大的影響了用戶對于大模型以及大模型產(chǎn)品的信任程度,能否成功解決幻覺問題以及能夠在多大程度上緩解這個問題,都與大模型實際應(yīng)用的深度和廣度緊密相關(guān)。

在sft階段,解決大模型幻覺的方式就是:

第一,增加樣本數(shù)據(jù)和多樣性,讓更多樣的樣本可以為模型提供更全面、更準(zhǔn)確的背景知識,使其在生成回答時能夠參考更廣泛的信息源,從而減少生成幻覺的概率。

第二,提高泛化能力,多樣性的樣本可以幫助模型學(xué)習(xí)不同的語境和表達(dá)方式,增強(qiáng)其在不同場景下的泛化能力,減少因特定樣本偏差導(dǎo)致的錯誤。

第三,減少偏見,多樣的樣本有助于減少模型的偏見,確保其在面對各種問題時能夠做出更公平和準(zhǔn)確的回答。

當(dāng)然大模型的幻覺的解決并不是一蹴而就的事情,他需要我們長期的優(yōu)化和訓(xùn)練。但要完全解決這一問題,還需要多方面的改進(jìn)和努力。

本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
13546人已学习15篇文章
深度学习(Deep learning)是一种机器学习的分支,它是通过构建多层神经网络来实现自主学习和预测的能力。本专题的文章分享了解读深度学习。
专题
12676人已学习12篇文章
活动策划,既是脑力活,也是苦力活,因此你需要尽量把各种情况考虑到。本专题的文章分享了如何策划一场线下活动。
专题
15759人已学习13篇文章
生活中,我们会看到路标、指示面板、箭头指引诸如此类的常见的导航,其实网络中也有很多导航指引。导航有什么用呢?导航设计又要遵循什么规范?本专题的文章分享了导航设计指南。
专题
29339人已学习16篇文章
系统如何恰当、清晰、及时地传达给用户操作的结果或者操作对象状态的变更?本专题的文章提供了有效的页面操作反馈设计指南。
专题
14936人已学习12篇文章
自传播是基于一个事件、一个产品或者营销活动自身的吸引力,激发人们自愿转发分享。本专题的文章分享了如何让产品具有自传播性。