一個(gè)大模型是如何被煉出來的

0 評(píng)論 1698 瀏覽 4 收藏 7 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

大家日常都會(huì)接觸到不少大模型和AI工具,有考慮過他們是如何做的嗎?知道原理,對于我們使用大模型和調(diào)整方法很有幫助。

在大語言模型(Large Language Model,LLM)中,無監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個(gè)組成部分,也是訓(xùn)練一個(gè)大模型的三個(gè)基礎(chǔ)階段。他們各自扮演著不同的角色,并應(yīng)用于不同的訓(xùn)練階段和任務(wù)中。

第一步:無監(jiān)督學(xué)習(xí)階段

無監(jiān)督學(xué)習(xí)也就是模型的預(yù)訓(xùn)練階段,簡單來說就是給模型投喂大量大量的文本,進(jìn)行無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練,這樣我們就會(huì)得到一個(gè)能夠進(jìn)行文本生成的基座。

在預(yù)訓(xùn)練中,需要大量的文本作為原料,讓模型從中學(xué)習(xí),比如gpt-3這個(gè)基座模型的訓(xùn)練數(shù)據(jù),就有非常多的互聯(lián)網(wǎng)文本語料庫,包含有新聞、圖書和文獻(xiàn)、科學(xué)論文、特定領(lǐng)域的數(shù)據(jù)集、社交媒體和論壇等等。訓(xùn)練數(shù)據(jù)的整體規(guī)模有三千億的Token(具體什么是token我們將在下一個(gè)帖子中詳細(xì)解釋。先簡單來理解的話就是基本文本單位)。

此時(shí)預(yù)訓(xùn)練的結(jié)束之后我們會(huì)得到一 個(gè)基座模型,而這個(gè)基座模型并不擅長對話,你給他一個(gè)問題,他可能模仿上文,幫你繼續(xù)生成更多的問題,但并不回答你的問題。這時(shí)我們開始進(jìn)行第二步有監(jiān)督學(xué)習(xí)

第二步:有監(jiān)督學(xué)習(xí)階段

有了大量的訓(xùn)練文本之后,我們就要采用“有監(jiān)督學(xué)習(xí)”的方式,也就是通過一些人類撰寫的高質(zhì)量對話數(shù)據(jù),對基座模型進(jìn)行監(jiān)督微調(diào)。

微調(diào)就是在已有模型上做進(jìn)一步的訓(xùn)練,這個(gè)階段呢,我們需要給基座模型看更多的對話數(shù)據(jù),包括單輪的對話數(shù)據(jù)還有多輪對話的數(shù)據(jù)等,目的呢就是為了訓(xùn)練一個(gè)擅長對話的AI助手。

微調(diào)的成本相比預(yù)訓(xùn)練要低很多,因?yàn)樾枰挠?xùn)練數(shù)據(jù)的規(guī)模相比較小,訓(xùn)練時(shí)長更短,在這一階段里,模型不需要從海量文本中學(xué)習(xí)了,而是從一些人類寫的專業(yè)且高質(zhì)量的對話里學(xué)習(xí)(在這個(gè)階段就產(chǎn)生了一個(gè)職業(yè)叫做AI訓(xùn)練師或者數(shù)據(jù)標(biāo)注員,這個(gè)我們后邊的帖子在慢慢細(xì)聊),這相當(dāng)于既給了模型問題,也給了模型我們?nèi)祟愔幸獾幕卮?,屬于監(jiān)督學(xué)習(xí)了。

這個(gè)過程被叫做監(jiān)督微調(diào)(Supervised Fine-Tuning)簡稱:SFT。

完成后會(huì)得到一個(gè)SFT模型。

第三步:強(qiáng)化學(xué)習(xí)階段

在強(qiáng)化學(xué)習(xí)階段,模型進(jìn)一步優(yōu)化以提升在實(shí)際應(yīng)用中的表現(xiàn),從而模型能夠自主的學(xué)習(xí)。

這個(gè)階段主要包含一下兩個(gè)步驟:

a. 人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)

這個(gè)部分包含:人類評(píng)價(jià)、獎(jiǎng)勵(lì)模型(Reward Model)、策略優(yōu)化

b. 反饋和調(diào)整

通過多次迭代的反饋和調(diào)整,模型逐漸學(xué)會(huì)生成更高質(zhì)量的響應(yīng)。這一過程通常涉及反復(fù)的生成、評(píng)估、調(diào)整和優(yōu)化。

這些都相對比較好理解,但我重點(diǎn)要說的是獎(jiǎng)勵(lì)模型(Reward Model)

要讓一個(gè)模型,能乖乖當(dāng)一個(gè)樂于助人的AI助手,我們可以讓模型對問題做出回答,然后讓人類評(píng)測人員去給回答打分,打分的標(biāo)準(zhǔn)主要是基于3H原則(幫助性、真實(shí)性、無害性)

  • 幫助性-helpful:模型的輸出應(yīng)該對用戶有實(shí)際幫助,能夠解決用戶的問題或滿足用戶的需求。
  • 真實(shí)性-honest:模型的輸出應(yīng)該真實(shí)可靠,不應(yīng)捏造事實(shí)或誤導(dǎo)用戶。
  • 無害性-harmless:判斷模型的輸出是否適當(dāng)、是否包含偏見有害性信息等內(nèi)容

如果打分高的話,模型能學(xué)習(xí)到要再接再厲,如果打分低的話,模型就學(xué)習(xí)到要予以改進(jìn)。

但是靠人類給回答一個(gè)個(gè)打分,成本極高、效率極低。所以我們要訓(xùn)練出另一個(gè)模型,讓模型給模型打分。在這一步里,需要訓(xùn)練一個(gè)reward獎(jiǎng)勵(lì)模型。他是從回答以及回答對應(yīng)的評(píng)分里進(jìn)行學(xué)習(xí)的。

模型得到評(píng)分?jǐn)?shù)據(jù)的方式是:我們會(huì)使用不同模型構(gòu)造同一問題下不同的回答,然后讓人類標(biāo)注員對回答質(zhì)量進(jìn)行比較排序,還有部分情況下是由人工補(bǔ)充滿分的答案。讓模型知道哪個(gè)答案是最好的。

雖然還是免不了要借助人類的勞動(dòng)。但一旦有了足夠的排序數(shù)據(jù),就可以把數(shù)據(jù)用在訓(xùn)練獎(jiǎng)勵(lì)模型上。讓獎(jiǎng)勵(lì)模型學(xué)習(xí)預(yù)測回答的評(píng)分。

獎(jiǎng)勵(lì)模型訓(xùn)練出來后,就可以用在強(qiáng)化學(xué)習(xí)上了,強(qiáng)化學(xué)習(xí)里,大模型的最初參數(shù)來自之前得到的SFT模型,但會(huì)隨著訓(xùn)練被更新,獎(jiǎng)勵(lì)模型的參數(shù)則不會(huì)再被更新,他的任務(wù)就是對模型生成的內(nèi)容打分,經(jīng)過一輪又一輪迭代后,模型會(huì)不斷優(yōu)化策略,回答的質(zhì)量也就會(huì)進(jìn)一步提升。

最后這樣一個(gè)大模型就在不斷學(xué)習(xí)中煉成了。??

本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
12814人已学习12篇文章
OTA,在线旅游(Online Travel Agency)指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费。
专题
12766人已学习12篇文章
发觉用户本能的最好方式就是从用户的心理出发,利用人的本能做产品设计,用最“自然”的方式影响用户的行为。本专题的文章分享了产品心理学。
专题
36497人已学习15篇文章
击溃顾客最后的心理防线,让他们心甘情愿按下购买按钮。
专题
33189人已学习15篇文章
一起来看看别人家是怎么做用户增长的。
专题
37388人已学习23篇文章
不知道这些问题,你出去都不敢说自己是做电商运营的。
专题
11846人已学习12篇文章
很多公司都在谈论数字化转型,而数字化的基础即是大量的、繁杂的、高度业务关联的基础数据。数字化运营是其中的一个分支。本专题的文章分享了如何做好数字化运营。