建造知識(shí)庫(kù):邁出搭建TO B大模型的第一步

0 評(píng)論 4108 瀏覽 29 收藏 16 分鐘

人工智能浪潮中,知識(shí)庫(kù)已然不僅是數(shù)據(jù)的簡(jiǎn)單集合,它已成為企業(yè)智能化轉(zhuǎn)型的核心競(jìng)爭(zhēng)力。?

一個(gè)大模型的知識(shí)庫(kù)怎么建?

“從去年下半年開(kāi)始,我們就開(kāi)始搭建自己的大模型,基于LLAMA的架構(gòu)。”一位國(guó)內(nèi)制造業(yè)企業(yè)的CIO告訴產(chǎn)業(yè)家,“第一步就是搭建知識(shí)庫(kù)?!?/p>

這家誕生于20世紀(jì)80年代的制造業(yè)企業(yè),擁有近40年的精密制造經(jīng)驗(yàn)。在過(guò)去的幾十年里,該企業(yè)跨過(guò)信息化、互聯(lián)網(wǎng)化,來(lái)到數(shù)字化、智能化時(shí)代。

為了更好地提升工作效率、支持技術(shù)發(fā)展、推動(dòng)企業(yè)文化和組織結(jié)構(gòu)的變革,在去年下半年,公司啟動(dòng)了基于“開(kāi)源算法的AI系統(tǒng)”的新項(xiàng)目。

項(xiàng)目被迅速推進(jìn)。

首先,幾個(gè)知識(shí)庫(kù)的方向被迅速敲定,其中包括生產(chǎn)環(huán)節(jié),辦公環(huán)節(jié)以及協(xié)作環(huán)節(jié)。其次,由公司組織,通過(guò)部門會(huì)議和討論,收集員工在日常工作中經(jīng)常遇到的高頻問(wèn)題;

此外,選擇一些對(duì)新知識(shí)敏感、愿意接受新技術(shù)的員工,組成學(xué)習(xí)小組,進(jìn)行初步的AI和知識(shí)庫(kù)使用培訓(xùn),并要求學(xué)習(xí)小組成員提出一定數(shù)量的問(wèn)題,對(duì)這些問(wèn)題進(jìn)行分類;將收集到的問(wèn)題和答案用于訓(xùn)練AI模型,以提高其回答問(wèn)題的準(zhǔn)確性。最終,將其部署在自己的服務(wù)器上。

這恰是一個(gè)完整的知識(shí)庫(kù)搭建流程。

從更大的視角來(lái)看,在To B企業(yè)服務(wù)市場(chǎng)的浪潮中,如今大模型的落地應(yīng)用正成為企業(yè)航船的強(qiáng)勁引擎。而知識(shí)庫(kù),作為這引擎的燃料,也正受到前所未有的關(guān)注。它不僅是輔助工具如Copilot和智能代理Agent的堅(jiān)實(shí)后盾,更是全場(chǎng)景企業(yè)級(jí)大模型部署的核心力量。

在過(guò)去的一年時(shí)間里,不同的服務(wù)商,包括基座大模型廠商、軟件服務(wù)商、云服務(wù)商、行業(yè)解決方案提供商以及第三方大模型開(kāi)發(fā)平臺(tái),都在幫助企業(yè)構(gòu)建知識(shí)庫(kù)方面發(fā)揮著各自的作用。

比如,基座大模型廠商的做法是通過(guò)提供一站式企業(yè)級(jí)大模型平臺(tái),使得企業(yè)能夠享受到從數(shù)據(jù)處理到模型訓(xùn)練、部署和運(yùn)維的全流程服務(wù);軟件服務(wù)商的模式則是更傾向于提供垂直的解決方案,他們結(jié)合特定行業(yè)知識(shí),幫助企業(yè)構(gòu)建符合行業(yè)特性的知識(shí)庫(kù)。

那么在當(dāng)下的大模型時(shí)代,知識(shí)庫(kù)到底發(fā)揮什么作用,它和大模型的關(guān)系到底是怎樣的?以及知識(shí)庫(kù)在大模型訓(xùn)練過(guò)程中到底發(fā)揮怎樣的作用?

一、大模型時(shí)代,重新理解知識(shí)庫(kù)

首先,一個(gè)精準(zhǔn)的定義是,TO B企業(yè)的知識(shí)庫(kù),更可以看作是一個(gè)專業(yè)性極強(qiáng)的信息資源庫(kù),它與個(gè)人知識(shí)庫(kù)相比,具有明顯的系統(tǒng)性、規(guī)模性和保密性特點(diǎn)。

從構(gòu)成內(nèi)容來(lái)看,企業(yè)知識(shí)庫(kù)通常包含大量專業(yè)性強(qiáng)、與企業(yè)運(yùn)營(yíng)緊密相關(guān)的數(shù)據(jù),這些數(shù)據(jù)不僅包括文本信息,還可能涵蓋圖片、視頻、音頻和數(shù)據(jù)表格等多模態(tài)格式。這樣的設(shè)計(jì)使得企業(yè)知識(shí)庫(kù)能夠支持企業(yè)的決策制定、流程優(yōu)化和客戶服務(wù)等多個(gè)方面。

其特殊性在于,企業(yè)知識(shí)庫(kù)中的數(shù)據(jù)具有特定的業(yè)務(wù)含義,如客戶信息、交易記錄和庫(kù)存狀態(tài)等,這些對(duì)于企業(yè)的日常運(yùn)營(yíng)和長(zhǎng)期戰(zhàn)略規(guī)劃都至關(guān)重要。

此外,企業(yè)知識(shí)庫(kù)的數(shù)據(jù)還與內(nèi)部流程和規(guī)則緊密相連,如生產(chǎn)流程和財(cái)務(wù)規(guī)則等,這要求企業(yè)知識(shí)庫(kù)必須具備高度的集成性,以便與企業(yè)的其他系統(tǒng)如ERP和CRM等實(shí)現(xiàn)無(wú)縫集成。

這些從語(yǔ)料到連接到流程的特殊性,對(duì)應(yīng)的也更是在大模型的落地過(guò)程中,企業(yè)知識(shí)庫(kù)扮演著至關(guān)重要的角色。

具體來(lái)看,首先在訓(xùn)練初始環(huán)節(jié),知識(shí)庫(kù)的角色是為大模型提供豐富的訓(xùn)練數(shù)據(jù),確保模型能夠精準(zhǔn)匹配企業(yè)的具體業(yè)務(wù)需求和場(chǎng)景。通過(guò)持續(xù)的反饋循環(huán),知識(shí)庫(kù)幫助模型不斷自我優(yōu)化,提升性能。

以市面上如今流行的RAG技術(shù)為例,大模型能夠檢索知識(shí)庫(kù)中的相關(guān)信息,生成準(zhǔn)確的回答或解決方案,并將這些輸出反饋回知識(shí)庫(kù)中,形成一個(gè)持續(xù)學(xué)習(xí)和改進(jìn)的閉環(huán),從而顯著提升解決問(wèn)題的效率和準(zhǔn)確性。

例如Google的DeepMind Health項(xiàng)目通過(guò)整合多模態(tài)數(shù)據(jù),提高了疾病診斷的準(zhǔn)確性,在識(shí)別視網(wǎng)膜病變方面提高了診斷準(zhǔn)確率;Salesforce的數(shù)據(jù)顯示,通過(guò)知識(shí)庫(kù)微調(diào)的AI模型在銷售預(yù)測(cè)方面的準(zhǔn)確率提高了約30%。

甚至可以說(shuō),企業(yè)知識(shí)庫(kù)的建設(shè)和應(yīng)用直接影響大模型在企業(yè)內(nèi)部的使用效果。它不僅提高了模型的效率和準(zhǔn)確性,還增強(qiáng)了用戶對(duì)模型輸出的信任和滿意度。同時(shí),企業(yè)還可以通過(guò)知識(shí)庫(kù)來(lái)控制數(shù)據(jù)的訪問(wèn)和使用,確保數(shù)據(jù)安全和合規(guī)性。

根據(jù)IBM的年度報(bào)告,其知識(shí)庫(kù)幫助減少了約20%的內(nèi)部查詢響應(yīng)時(shí)間,同時(shí)提高了數(shù)據(jù)安全性;根據(jù)亞馬遜的業(yè)務(wù)報(bào)告,通過(guò)知識(shí)庫(kù)的應(yīng)用,庫(kù)存周轉(zhuǎn)率提高了約15%,客戶滿意度提升了10%。

最后,更可以看做,隨著企業(yè)對(duì)數(shù)字化轉(zhuǎn)型的需求日益增長(zhǎng),企業(yè)知識(shí)庫(kù)與大模型的結(jié)合也更將成為企業(yè)獲取競(jìng)爭(zhēng)優(yōu)勢(shì)的重要工具。

在德勤的一項(xiàng)分析中,那些有效利用知識(shí)庫(kù)的企業(yè),其年增長(zhǎng)率平均比行業(yè)平均水平高出15%。

可以說(shuō),知識(shí)庫(kù)的最核心價(jià)值呈現(xiàn)恰是其在為模型提供了微調(diào)數(shù)據(jù)之外,還確保模型能夠真正適應(yīng)企業(yè)的特定需求,提高其在企業(yè)內(nèi)部的有效性。

二、誰(shuí)在構(gòu)建知識(shí)庫(kù)?

盡管市場(chǎng)上眾多企業(yè)提供了基于大型模型的知識(shí)庫(kù)服務(wù),但構(gòu)建這樣的系統(tǒng)并非輕而易舉的任務(wù)。

例如,根據(jù)《企業(yè)知識(shí)管理調(diào)查報(bào)告》顯示,超過(guò)60%的企業(yè)在嘗試集成AI助手時(shí)遇到了技術(shù)障礙。

正如文章開(kāi)頭所述的案例,企業(yè)在搭建知識(shí)庫(kù)的過(guò)程中,需要將AI助手與現(xiàn)有的多種軟件和系統(tǒng)進(jìn)行集成。這要求企業(yè)擁有大量且細(xì)致的數(shù)據(jù)集來(lái)訓(xùn)練AI模型,這在企業(yè)初期是一個(gè)巨大的挑戰(zhàn)——確保AI助手提供的答案準(zhǔn)確無(wú)誤,尤其是在制造業(yè)這樣對(duì)錯(cuò)誤容忍度極低的行業(yè)中。福特汽車公司在集成AI系統(tǒng)時(shí),就曾面臨數(shù)據(jù)精確度不足的問(wèn)題,導(dǎo)致初期模型的準(zhǔn)確率僅為70%。

在數(shù)據(jù)層面,企業(yè)需要選擇不同的數(shù)據(jù)處理工具,如Apache Spark、Hadoop,標(biāo)注軟件如LabelImg,內(nèi)容管理系統(tǒng)(CMS)如WordPress、Drupal,以及企業(yè)搜索解決方案如Elasticsearch、Apache Solr,都是構(gòu)建知識(shí)庫(kù)的利器。

據(jù)Gartner的報(bào)告指出,市場(chǎng)上排名前五的數(shù)據(jù)處理工具在數(shù)據(jù)清洗效率上的差異可達(dá)到30%以上。

此外,知識(shí)庫(kù)的用戶界面設(shè)計(jì)對(duì)員工的使用體驗(yàn)和效率有著直接影響;同時(shí),工具與企業(yè)現(xiàn)有系統(tǒng)和工作流程的集成性也是至關(guān)重要的。IBM的Watson平臺(tái)在與企業(yè)系統(tǒng)集成時(shí),就提供了超過(guò)200種預(yù)集成選項(xiàng),顯著提高了集成效率。

面對(duì)這些挑戰(zhàn),一些基礎(chǔ)模型供應(yīng)商和軟件服務(wù)提供商正在幫助企業(yè)構(gòu)建知識(shí)庫(kù)。比如百度的“昆侖芯+飛槳平臺(tái)+文心大模型”布局,以及華為的“昇騰芯片+MindSpore框架+盤古大模型”等,都是從更系統(tǒng)的層面保障企業(yè)大模型部署的成功。

此外,像滴普科技這樣的軟件廠商,也不斷提供垂直的解決方案,其客戶滿意度調(diào)查顯示,使用滴普科技基于數(shù)據(jù)庫(kù)等數(shù)據(jù)細(xì)顆粒度的解決方案的企業(yè),其知識(shí)庫(kù)構(gòu)建成功率可以提高40%。

然而,工具本身并非萬(wàn)能。企業(yè)要成功搭建自己的知識(shí)庫(kù),還需要克服內(nèi)部組織結(jié)構(gòu)、業(yè)務(wù)流程和員工接受度等難點(diǎn)。高層的支持和明確的戰(zhàn)略規(guī)劃對(duì)于項(xiàng)目的成功至關(guān)重要。根據(jù)麥肯錫的一項(xiàng)研究,有高層支持的企業(yè)知識(shí)庫(kù)項(xiàng)目成功率比沒(méi)有支持的高出50%。

在搭建知識(shí)庫(kù)的過(guò)程中,IT部門或知識(shí)管理部門通常是牽頭者,負(fù)責(zé)架構(gòu)設(shè)計(jì)和技術(shù)選型。而業(yè)務(wù)部門則需要提供內(nèi)容支持,確保知識(shí)庫(kù)的信息準(zhǔn)確、及時(shí)。

例如,產(chǎn)品開(kāi)發(fā)部門提供最新的產(chǎn)品信息,客戶服務(wù)部門貢獻(xiàn)常見(jiàn)問(wèn)題解答,人力資源部門提供員工培訓(xùn)材料。這就像一場(chǎng)交響樂(lè),每個(gè)部門都是不可或缺的樂(lè)手,共同奏出和諧的樂(lè)章。一項(xiàng)針對(duì)500家企業(yè)的調(diào)查發(fā)現(xiàn),那些擁有健全知識(shí)庫(kù)的企業(yè),其產(chǎn)品開(kāi)發(fā)周期平均縮短了20%。

此外,企業(yè)還應(yīng)該培養(yǎng)員工的知識(shí)共享文化,鼓勵(lì)他們將經(jīng)驗(yàn)和教訓(xùn)貢獻(xiàn)給知識(shí)庫(kù),形成持續(xù)的知識(shí)積累和更新。根據(jù)哈佛商業(yè)評(píng)論的研究,擁有強(qiáng)大知識(shí)共享文化的公司,其創(chuàng)新速度比行業(yè)平均水平快30%。

總之,企業(yè)知識(shí)庫(kù)的建設(shè)是一項(xiàng)系統(tǒng)化的工程,它要求企業(yè)從戰(zhàn)略層面進(jìn)行規(guī)劃,技術(shù)層面進(jìn)行實(shí)施,文化層面進(jìn)行推動(dòng)。只有當(dāng)知識(shí)庫(kù)真正是以企業(yè)知識(shí)寶庫(kù)的形式存在,才能真正從大模型的價(jià)值層面進(jìn)行賦能加持。

三、知識(shí)庫(kù)背后:大模型的落地成色

再回到文章最開(kāi)始那個(gè)問(wèn)題:知識(shí)庫(kù)于大模型而言,意味著什么?

首先,從表層來(lái)看,知識(shí)庫(kù)為模型提供了訓(xùn)練所需的海量數(shù)據(jù)和信息資源。谷歌的BERT模型之所以在語(yǔ)言理解任務(wù)上取得顯著進(jìn)展,是因?yàn)樗?xùn)練時(shí)使用了包含超過(guò)3000本未版權(quán)書(shū)籍和2400萬(wàn)網(wǎng)頁(yè)的龐大知識(shí)庫(kù)。這樣的數(shù)據(jù)豐富性確保了模型能夠?qū)W習(xí)到廣泛的語(yǔ)言模式和知識(shí)。

知識(shí)庫(kù)中的信息多樣性也是大模型落地的關(guān)鍵。IBM的Watson在醫(yī)療領(lǐng)域應(yīng)用時(shí),依賴于包含超過(guò)200萬(wàn)頁(yè)醫(yī)學(xué)文獻(xiàn)、圖像和病例報(bào)告的多模態(tài)知識(shí)庫(kù),這使得Watson能夠處理復(fù)雜的醫(yī)療咨詢和診斷任務(wù)。

此外,從模型的特定性來(lái)看,知識(shí)庫(kù)中的信息準(zhǔn)確性對(duì)于大模型的決策支持至關(guān)重要。例如,金融機(jī)構(gòu)在使用大模型進(jìn)行風(fēng)險(xiǎn)評(píng)估時(shí),依賴于準(zhǔn)確無(wú)誤的金融數(shù)據(jù)知識(shí)庫(kù),這些數(shù)據(jù)往往來(lái)源于經(jīng)過(guò)嚴(yán)格審核的金融報(bào)告和市場(chǎng)分析。

知識(shí)庫(kù),正在成為大模型落地的基礎(chǔ)。

目前做得好的知識(shí)庫(kù)不僅僅是靜態(tài)的信息集合,而是動(dòng)態(tài)、互動(dòng)的平臺(tái)。它不僅僅是信息的存儲(chǔ)和分類,更是知識(shí)發(fā)現(xiàn)和創(chuàng)新的催化劑。當(dāng)前做得好的知識(shí)庫(kù),已經(jīng)超越了傳統(tǒng)的文檔管理和搜索功能,它們通過(guò)集成先進(jìn)的搜索算法、自然語(yǔ)言處理技術(shù),甚至將機(jī)器學(xué)習(xí)模型(如prompt)嵌入其中,實(shí)現(xiàn)了知識(shí)的自動(dòng)更新和智能化推薦。

例如,亞馬遜的A3知識(shí)庫(kù)存儲(chǔ)了超過(guò)5億個(gè)產(chǎn)品信息,并通過(guò)機(jī)器學(xué)習(xí)算法不斷優(yōu)化產(chǎn)品推薦,提高了用戶體驗(yàn)和銷售效率。這些知識(shí)庫(kù)通常具備高度集成、用戶友好、智能化、個(gè)性化和持續(xù)學(xué)習(xí)的特點(diǎn)。

未來(lái),知識(shí)庫(kù)的搭建方式將更加智能化和自動(dòng)化。例如,自動(dòng)內(nèi)容聚合工具如Import.io能夠從互聯(lián)網(wǎng)上自動(dòng)收集和整理信息,而機(jī)器學(xué)習(xí)平臺(tái)如Google’s TensorFlow則能夠處理和分析這些數(shù)據(jù)。知識(shí)庫(kù)的作用將不僅限于提供數(shù)據(jù)支持,它將成為企業(yè)決策的智能助手,通過(guò)分析大量數(shù)據(jù)提供洞察和建議。

在大模型落地中,知識(shí)庫(kù)的更新和進(jìn)化模式將變得更加動(dòng)態(tài)。例如,OpenAI的模型能夠根據(jù)用戶的反饋和行為自動(dòng)調(diào)整其生成的文本,以適應(yīng)不斷變化的需求和環(huán)境。這種自我優(yōu)化的能力將使知識(shí)庫(kù)成為大模型持續(xù)進(jìn)化的重要驅(qū)動(dòng)力。

隨著技術(shù)的進(jìn)步,知識(shí)庫(kù)將變得更加智能、互動(dòng)和自適應(yīng),為企業(yè)提供更加強(qiáng)大和靈活的知識(shí)管理能力。據(jù)Gartner預(yù)測(cè),到2025年,超過(guò)30%的大型企業(yè)將擁有自己定制的人工智能知識(shí)庫(kù),這將極大地推動(dòng)企業(yè)智能化的發(fā)展。

在人工智能的浪潮中,知識(shí)庫(kù)已然不僅是數(shù)據(jù)的簡(jiǎn)單集合,它已成為企業(yè)智能化轉(zhuǎn)型的核心競(jìng)爭(zhēng)力。

作者:斗斗,編輯:皮爺

來(lái)源公眾號(hào):產(chǎn)業(yè)家(ID:chanyejiawang),專注深度產(chǎn)業(yè)互聯(lián)網(wǎng)內(nèi)容

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @產(chǎn)業(yè)家 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!