AI 產品經理,如何理解 RAG 技術?簡潔版

wanee
0 評論 2757 瀏覽 5 收藏 4 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

本文將深入探討增強檢索技術的關鍵步驟、應用領域及其優(yōu)勢與局限性,揭示如何通過這項技術提升模型輸出的可信度和專業(yè)性,同時確保對最新數(shù)據(jù)的訪問。

一、什么是增強檢索

LLMs 外掛一個“LLMs 外掛一個“實時更新的知識庫”,使用外部數(shù)據(jù)提高LLMs的準確性專業(yè)性。

二、解決了什么問題

模型誤導輸出/知識缺乏實效性/垂直領域知識不足

三、應用領域

很通用,問答系統(tǒng)/內容摘要/對話系統(tǒng)/文本生成等

四、關鍵步驟

1. 在接到輸入時,檢索一組與之相關的文檔或信息片段

  • 對于于這個輸入構建一個或多個查詢。
  • 這些查詢從一個大型的數(shù)據(jù)存儲(如文本數(shù)據(jù)庫或知識庫)中檢索相關信息。

2. 將這些檢索到的信息與輸入結合起來,作為生成模型的輸入

  • 模型通過一個檢索系統(tǒng)(通常是預先訓練好的檢索模型或者是簡單的基于關鍵詞的檢索系統(tǒng))在數(shù)據(jù)存儲中搜索相關的文檔/信息片段
  • 返回一組與查詢最相關的文檔/信息片段,隨后被編碼為向量形式。通常使用預訓練的語言模型(如BERT、RoBERTa等)來完成。
  • 融編碼后的文檔向量與原始查詢的表示被融合,作為生成模型的輸入。生成模型(如GPT)然后根據(jù)這些信息生成最終的輸出文本。
  • 生成模型不僅考慮了原始輸入的信息,也考慮了檢索到的相關信息。

3. 生成更加準確和信息豐富的文本

  • 生成模型輸出的文本被呈現(xiàn)給用戶,作為對原始查詢的回答或補充信息。

五、優(yōu)勢

1. 成本低,無需模型訓練

通過檢索現(xiàn)有的知識庫,增強模型的回復質量,相比fine-tune的微調模型而言,成本更低,無需對模型進行重新訓練。

2. 增強模型輸出的可信度

Reg生成的回答可以附帶對應的引用來源,用戶點擊引用來源后,可以查看對應的引用內容,可以隨時驗證模型回答的準確性,從而增加對模型輸出的信任。

3. 增強模型輸出的專業(yè)性

通過檢索知識庫中的信息,可以有效減少模型作出錯誤判斷的可能性,并且通過檢索知識庫加上提示詞的優(yōu)化可以滿足不同行業(yè)或者客群的定制話需求

4. 能夠始終訪問最新的數(shù)據(jù)

知識庫可以實時更新便于調用最新的信息和數(shù)據(jù),對于實時需要獲取信息的領域尤為重要,比如教育醫(yī)療和金融領域。

六、局限性

不能根治LLM的本質局限。

不會改變推理能力,模型參數(shù)不變,模型固有能力不變,如果模型本身參數(shù)不足,在理解和推理上存在固有的缺陷,單純用Rag技術,也無法提高模型的輸出質量。

本文由 @wanee 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
19130人已学习13篇文章
在B端产品设计中,数据的筛选是其中必不可少的一个步骤。本专题的文章提供了B端数据筛选查询的设计思路。
专题
13045人已学习12篇文章
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中通过算法搜索隐藏于其中信息的过程。本专题的文章分享了如何挖掘数据。
专题
36525人已学习15篇文章
击溃顾客最后的心理防线,让他们心甘情愿按下购买按钮。
专题
12220人已学习12篇文章
构建UGC社区是很多社区平台的必经之路,它能助力平台内容生产,为社区提供活水源泉。本专题的文章分享了如何构建UGC社区。
专题
14636人已学习12篇文章
数据库对于产品经理来说是一个既熟悉又陌生的概念,虽然产品设计中的数据基本都要与数据库交互,但平时的工作中也很少接触到数据库的具体操作和细节。本专题的文章分享了数据库的基础知识。