Nature|LLM正在重塑教育,所有學(xué)生都需要學(xué)習(xí)AI,RAG是解決幻覺的關(guān)鍵

0 評論 3191 瀏覽 5 收藏 22 分鐘

大模型的出現(xiàn)給許多行業(yè)帶來了重塑的機會,其中,教育行業(yè)也在LLM的影響下迎來變革。這篇文章里,作者就探討了LLM如何重塑教育行業(yè)這件事,一起來看一下,或許關(guān)注“AI+教育”的同學(xué)會感興趣。

LLM已經(jīng)在重塑人類教育事業(yè)了!

Nature今天刊文,探討了教育行業(yè)的不同參與者,如何抓住LLM這個變革性的工具帶來的機會,重新改造這項自人類文明誕生以來就存在的行業(yè)。

文章鏈接:https://www.nature.com/articles/d41586-023-03507-3

在作者看來,現(xiàn)在已經(jīng)不是討論以LLM為代表的AI技術(shù)是否應(yīng)該進(jìn)入課堂的時候了。

沒有人能夠再調(diào)撥時鐘,假裝回到那個沒有大語言模型的時代,對AI技術(shù)在教育領(lǐng)域的應(yīng)用不聞不問。

不論是學(xué)生,老師,還是教育機構(gòu),乃至教育工具提供商,都應(yīng)該積極地把握LLM帶來的機會,徹底地改變學(xué)習(xí)和教學(xué)的方式,才能應(yīng)對教育行業(yè)即將發(fā)生的改變。

一、LLM已經(jīng)進(jìn)入了教育的方方面面

上個月,教育心理學(xué)家Ronald Beghetto要求一群研究生和教學(xué)專家以一種不同尋常的方式討論他們的工作。

除了相互交談,他們還與Beghetto設(shè)計的一系列以創(chuàng)造力為主題的聊天機器人進(jìn)行了對話,這些聊天機器人不久將托管在Beghetto所在的亞利桑那州立大學(xué)(ASU)的一個平臺上。

這些機器人背后的技術(shù)與ChatGPT所采用的技術(shù)相同。

Beghetto讓機器人扮演各種角色,以鼓勵創(chuàng)造力,例如,故意挑戰(zhàn)別人的假設(shè)。

一位學(xué)生與聊天機器人討論了各種論文題目。講師們討論了如何設(shè)計課堂。

反饋非常積極。一位參與者說,他們以前曾嘗試使用ChatGPT來輔助學(xué)習(xí),但發(fā)現(xiàn)它并不實用,這與Beghetto的聊天機器人不同。

另一位與會者問道 「這些東西什么時候能用?」這些機器人幫助參與者創(chuàng)造了更多的可能性,而這些可能性是他們在其他情況下感受不到的。

許多教育工作者擔(dān)心,ChatGPT的興起會讓學(xué)生更容易作弊。

然而,Beghetto和其他人正在探索大語言模型(LLM)(如ChatGPT)的潛力,并將其作為加強教育的工具。

使用LLM閱讀和總結(jié)大量文本可以節(jié)省學(xué)生和教師的時間,幫助他們專注于討論和學(xué)習(xí)。

ChatGPT能夠清晰地討論幾乎任何話題,這為使用LLM創(chuàng)造個性化的對話式教育體驗帶來了光明的前景。一些教育工作者將他們視為潛在的 「思想伙伴」,其成本可能低于人類輔導(dǎo)員,而且與人不同,他們幾乎隨時隨地都可以提供服務(wù)。

伊利諾伊州香檳市的科技公司W(wǎng)olfram Research的聯(lián)合創(chuàng)始人Theodore Gray說:「一對一輔導(dǎo)是最有效的教學(xué)干預(yù)措施,但它非常昂貴,而且無法大規(guī)模應(yīng)用?!?/p>

人們已經(jīng)嘗試過軟件,但效果一般都不好?,F(xiàn)在,人們確實有可能制作出行之有效的教育軟件。格雷告訴《自然》雜志,Wolfram Research司目前正在開發(fā)一種基于LLM的輔導(dǎo)軟件,但沒有提供太多細(xì)節(jié)。

這種人工智能合作伙伴可以用來引導(dǎo)學(xué)生一步一步地解決問題,激發(fā)批判性思維,或者像Beghetto的實驗?zāi)菢?,提高用戶的?chuàng)造力,擴展思維的邊界。

田納西州納什維爾Vanderbilt大學(xué)未來學(xué)習(xí)與生成式人工智能計劃主任Jules White稱ChatGPT為 「思想的外骨骼」。

二、風(fēng)險是真實存在的

自O(shè)penAI于2022年11月推出ChatGPT以來,有關(guān)其在教育領(lǐng)域應(yīng)用的大部分關(guān)注都是負(fù)面的。

LLM的工作原理是從包含數(shù)十億實例的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)單詞和短語之間的關(guān)系。根據(jù)用戶的提示,它們可以生成句子,包括作業(yè)題的答案,甚至整篇文章。

與以往的人工智能系統(tǒng)不同,ChatGPT的答案通常都寫得很好,而且似乎經(jīng)過了精心研究。

這不禁讓人擔(dān)心,學(xué)生們會不會簡單地讓ChatGPT幫他們做作業(yè),或者至少他們可能會依賴聊天機器人來快速獲取答案,而不明白其中的道理。

ChatGPT還可能輸出錯誤的信息,把學(xué)生引入歧途。

盡管聊天機器人在大量商業(yè)、法律和學(xué)術(shù)考試中表現(xiàn)出色,但它的不靠譜也是出了名的,如果問題的措辭稍有不同,它就會出錯,甚至?xí)巵y造,這種問題被稱為幻覺。

加州大學(xué)洛杉磯分校的計算機科學(xué)家Wei Wang發(fā)現(xiàn),GPT-3.5(免費版ChatGPT背后的技術(shù))及其后續(xù)版本GPT-4在測試從大學(xué)教科書和考試中選取的物理、化學(xué)、計算機科學(xué)和數(shù)學(xué)問題時錯誤百出。

Wang和她的同事嘗試了不同的方法來檢測這兩個GPT機器人的輸出內(nèi)容。

他們發(fā)現(xiàn),GPT-4是表現(xiàn)得最好的產(chǎn)品,可以回答約三分之一的大學(xué)教科書中提出的問題。而它在一次考試中的得分率為80%。

三、擁抱LLM

盡管挑戰(zhàn)重重,一些研究人員、教育工作者和公司還是看到了ChatGPT及其底層LLM技術(shù)的巨大潛力。

與Beghetto和Wolfram Research一樣,他們正在嘗試如何在教育中更好地使用LLM。

有些公司使用ChatGPT的替代品,有些公司想方設(shè)法減少不準(zhǔn)確性和幻覺,有些公司則在改進(jìn)LLM的特定學(xué)科知識。

位于Raleigh的北卡羅來納州立大學(xué)專門研究教育系統(tǒng)的計算機科學(xué)家Collin Lynch認(rèn)為,LLM在教育領(lǐng)域有非常大的作用。雖然風(fēng)險同樣很高,但是可以用各種方法減輕。

位于巴黎的聯(lián)合國教科文組織(UNESCO)教育機構(gòu)未來學(xué)習(xí)與創(chuàng)新主任Sobhi Tawil說,社會需要幫助學(xué)生了解LLM的優(yōu)勢和風(fēng)險,而不是一味地禁止他們使用這項技術(shù)。

今年9月,聯(lián)合國教科文組織發(fā)布了一份題為《教育與研究領(lǐng)域生成式人工智能指南》的報告。其中一項重要建議是,教育機構(gòu)在使用ChatGPT等工具輔助學(xué)習(xí)之前,應(yīng)對其進(jìn)行驗證。

一些公司正在銷售基于OpenAI的LLM技術(shù)的商用輔助工具,如MagicSchool和Eduaide,幫助學(xué)校教師規(guī)劃課程活動和評估學(xué)生作業(yè)。

學(xué)術(shù)界也開發(fā)了其他工具,如賓夕法尼亞州立大學(xué)州立學(xué)院計算機科學(xué)家Rebecca Passonneau團隊開發(fā)的PyrEval,用于閱讀文章并提取關(guān)鍵要點。

在威斯康星大學(xué)麥迪遜分校教育心理學(xué)家Sadhana Puntambekar的幫助下,PyrEval在過去三年里每年為約2000名中學(xué)生在科學(xué)課上撰寫的物理論文5進(jìn)行評分。

項目地址:https://github.com/serenayj/PyrEval

Puntambekar說,雖然這些作文沒有傳統(tǒng)意義上的分?jǐn)?shù),但PyrEval使教師能夠快速檢查作業(yè)是否包含關(guān)鍵主題,并在課堂上提供反饋,否則這是不可能的。

Puntambekar說,PyrEval的評分還能幫助學(xué)生反思自己的作業(yè):如果人工智能沒有檢測到學(xué)生認(rèn)為他們已經(jīng)包含的主題,這可能表明需要更清楚地解釋這個想法,或者他們犯了小的概念或語法錯誤。

該團隊現(xiàn)在要求ChatGPT和其他LLM完成同樣的任務(wù),并對結(jié)果進(jìn)行比較。

四、引入人工智能導(dǎo)師

還有一些機構(gòu)直接使用人工智能來輔導(dǎo)學(xué)生。除了ChatGPT,人工智能導(dǎo)師和助教——Khanmigo可能是使用最廣泛的基于LLM的教育工具。

該工具是OpenAI與位于加州山景城的非營利教育組織Khan Academy合作的成果。

通過使用GPT-4提供AI能力,Khanmigo可以在學(xué)生完成練習(xí)時為他們提供提示和輔導(dǎo),從而節(jié)省教師的時間。

Khanmigo的工作方式與ChatGPT不同。它以彈出聊天機器人的形式出現(xiàn)在學(xué)生的電腦屏幕上。

學(xué)生可以與它討論正在解決的問題。

它的特殊之處在于,在將學(xué)生的問題發(fā)送到GPT-4之前,會自動添加一個提示,指示機器人不要給出答案,而是要提出很多問題,來引導(dǎo)學(xué)生自己得到答案。

該學(xué)院的首席學(xué)習(xí)官Kristen DiCerbo將這一過程稱為 「富有成效的斗爭」。

但她也承認(rèn),Khanmigo目前仍處于試驗階段,在有助于學(xué)習(xí)的問題和難到讓學(xué)生放棄的問題之間存在著微妙的界限。她說:「訣竅在于找出那條界線」。

據(jù)Khan Academy稱,Khanmigo于今年3月首次推出,本學(xué)年有超過2.8萬名美國教師和11至18歲的學(xué)生試用了這款人工智能助手。

用戶來自30多個學(xué)區(qū)。個人用戶每年支付99美元,學(xué)區(qū)每年為每個學(xué)生支付60美元,用于支付LLM的推理成本。

為保護(hù)學(xué)生隱私,OpenAI同意不將Khanmigo數(shù)據(jù)用于培訓(xùn)。

但Khanmigo能否真正徹底改變教育,目前還不清楚。

LLM接受的培訓(xùn)只包括句子中下一個最有可能出現(xiàn)的詞,而不是檢查事實。

因此,他們有時會出錯,有時也會直接給出答案。

DiCerbo說,為了提高準(zhǔn)確性,Khanmigo發(fā)送給GPT-4的提示現(xiàn)在包含了正確答案以作指導(dǎo)。不過,它仍然會出錯,Khan Academy要求用戶在它出錯時告知平臺。

Lynch說,Khanmigo似乎效果不錯。但他提醒說 「我還沒有看到明確的驗證效果?!?/p>

Lynch強調(diào),任何用于教育領(lǐng)域的聊天機器人都必須仔細(xì)檢查其語氣和準(zhǔn)確性,不能侮辱或貶低學(xué)生,也不能讓他們感到迷茫。

「情感是學(xué)習(xí)的關(guān)鍵。」Lynch說:「如果你以一種不友好的方式輔導(dǎo)學(xué)生,他就會對學(xué)習(xí)失去興趣?!?/p>

DiCerbo指出,Khanmigo會在各種情況下對每個學(xué)生做出不同的反應(yīng),她希望這能讓機器人比以前的輔導(dǎo)系統(tǒng)更有吸引力。

Khan Academy預(yù)計在2024年底或2025年初分享有關(guān)Khanmigo效果的研究成果。

其他教育輔導(dǎo)公司也在提供LLM作為學(xué)生的助手,或正在進(jìn)行試驗。

位于加利福尼亞州圣克拉拉的教育技術(shù)公司Chegg在4月份推出了一款基于GPT-4的助手。

而位于北京的中國輔導(dǎo)公司TAL教育集團(學(xué)而思)則創(chuàng)建了一個名為MathGPT的LLM,并聲稱它在回答數(shù)學(xué)特定問題方面比GPT-4更準(zhǔn)確。

五、檢索增強(RAG)能治愈AI的幻覺?

另一種創(chuàng)建人工智能學(xué)習(xí)伙伴的方法是將LLM與經(jīng)過嚴(yán)格驗證的外部重點知識語料庫(如教科書或科學(xué)論文集)整合在一起。

這種檢索增強生成(RAG)方法的目標(biāo)是避免無法驗證數(shù)十億文本來源中的錯誤信息,因為這些文本來源賦予了LLM會話的能力。

位于紐約的人工智能公司Merlyn Mind正在其開源Corpus-qa LLM中使用RAG,這個LLM面向教育領(lǐng)域。

與ChatGPT一樣,Merlyn Mind的LLM最初也是在大量與教育無關(guān)的文本中進(jìn)行訓(xùn)練的,這才能賦予了它對話能力。

但與ChatGPT不同的是,當(dāng)LLM回答一個問題時,它并不僅僅依靠在訓(xùn)練中學(xué)到的知識。

該公司首席執(zhí)行官薩Satya Nitta說,相反,它還會參考特定的信息語料庫,從而最大限度地減少幻覺和其他錯誤。

Merlyn Mind還對其LLM進(jìn)行了微調(diào),如果他們沒有高質(zhì)量的回答,就會 「坦白說自己不會」,并努力做出更好的回答,從而在很多情況下避免幻覺的產(chǎn)生,Nitta說。

ChatGPT能夠通過圖靈測試,所以尋找評估人工智能新方法的競賽正在進(jìn)行中。

紐約市教育技術(shù)公司投資人GSV風(fēng)險投資公司副總裁Claire Zau說,美國亞利桑那大學(xué)也在使用RAG,該校是采用LLM最大膽的大學(xué)之一。

美國亞利桑那州立大學(xué)經(jīng)過最初的小范圍測試后,于10月份推出了一個工具箱,使其教職員工能夠通過網(wǎng)絡(luò)界面嘗試在教育中使用LLM。

這包括訪問六個LLM,包括GPT-3.5、GPT-4和谷歌的Bard,以及支持RAG功能。

像文章開頭提到的那樣,這些工具將使更多的研究人員(如Beghetto)能夠構(gòu)建聊天機器人,與學(xué)生進(jìn)行互動。

在首次研討會之后,Beghetto計劃在他正在開發(fā)的一門課程中使用這些機器人。

亞利桑那州立大學(xué)人工智能加速執(zhí)行主任Elizabeth Reilley說,亞利桑那州立大學(xué)在其私有云中托管安全版本的LLM,以最大限度地減少對隱私的擔(dān)憂。

Reilley說,這些機器人已經(jīng)對亞利桑那大學(xué)的教育產(chǎn)生了積極影響。

她舉例說,一個為亞利桑那大學(xué)化學(xué)入門課程創(chuàng)建的機器人使用RAG將GPT-3.5與PDF和PowerPoint課件結(jié)合起來。

她舉了一個測試用例:一個熱愛棒球的學(xué)生要求LLM解釋分子中偶極子-偶極子的相互作用。

學(xué)生的回答是一個準(zhǔn)確的解釋,其中加入了 「棒球的隱喻,更能說明問題」。

位于坦佩的亞利桑那大學(xué)學(xué)習(xí)工程研究所執(zhí)行主任Danielle McNamara說,使用通用LLM與RAG相結(jié)合的方法不同于以往的機器學(xué)習(xí)方法,以往的機器學(xué)習(xí)方法是訓(xùn)練人工智能系統(tǒng)來模擬科學(xué)專家。

但是以往方法的工具缺乏幫助學(xué)生的通用能力,比如將棒球融入化學(xué)概念的能力。

McNamara和她的同事們現(xiàn)在計劃研究亞利桑那大學(xué)使用的聊天機器人和LLM工具的效果如何。

田納西州納什維爾的Vanderbilt大學(xué)等其他機構(gòu)也在使用LLM。

該大學(xué)為某些課程的學(xué)生提供了付費版ChatGPT,包括專門的插件工具。

上海華東師范大學(xué)的研究人員創(chuàng)建了一個名為 「EduChat 」的專用教育LLM,將論文評估、對話式輔導(dǎo)和情感支持結(jié)合在一個聊天機器人中。

論文鏈接:https://arxiv.org/abs/2308.02773

該團隊以開放源代碼的形式分享了這一工具。盡管EduChat仍處于早期階段,但它是一個專用的教育LLM,而不是對現(xiàn)有通用模式(如ChatGPT或Bard)的套殼工具,這一點值得注意。

六、AI真的能改變教育嗎?

在教育領(lǐng)域使用人工智能的一個重要問題是,誰將有機會使用人工智能,Khanmigo等付費服務(wù)是否會加劇現(xiàn)有的教育資源不平等。

DiCerbo說,Khan Academy目前正在尋找慈善家和贈款,以幫助支付算力成本,并為資源不足的學(xué)校提供使用機會,在試點階段已將這些學(xué)校列為優(yōu)先考慮對象。她說:「我們正在努力確保數(shù)字鴻溝不會出現(xiàn)?!?/p>

另一個挑戰(zhàn)是如何確保LLM提供的信息不帶偏見,并確保模型考慮到代表性不足群體的知識和觀點。

在LLM接受培訓(xùn)的大部分文本中都沒有這類信息。位于坦佩的亞利桑那大學(xué)負(fù)責(zé)研究技術(shù)的副校長Sean Dudley說,RAG允許亞利桑那大學(xué)的LLM平臺向用戶提供答案的來源。

但這并不能消除偏見問題,但他希望這至少能提供透明度,讓學(xué)生們有機會批判性地思考信息的來源。Dudley說:「我們的使命之一就是關(guān)注誰被遺漏了?!?/p>

LLM對教育的好處最終是否會大于風(fēng)險,目前還不清楚。

Lynch承認(rèn),LLM是一種強大的工具,但同時也需要關(guān)注其不足之處。他說:「我們并不是一夜之間就學(xué)會了飛行。」

他把這些工具所吸引的注意力比作以前人們對大規(guī)模在線開放課程和被稱為 「元宇宙 」的三維虛擬世界的教育用途的關(guān)注。

兩者都不具備某些人曾經(jīng)預(yù)測的變革力量,但都有其用途?!笍哪撤N意義上說,這將是一樣的。它還不錯。它并不完美。它不是萬能的。這是一個新事物,」他說。

在聯(lián)合國教科文組織從事教育工作二十多年的Tawil說,了解人工智能的局限性至關(guān)重要。

LLM現(xiàn)在與人類的努力緊密相連,因此他說必須重新思考如何教學(xué)和評估學(xué)習(xí)。

「這是在重新定義是什么讓我們成為人類,是什么讓我們的智能獨一無二。」

參考資料:

https://www.nature.com/articles/d41586-023-03507-3#ref-CR3

編輯:潤

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!