從WAIC2024看人工智能三大趨勢:智能體、具身智能、算力風暴

0 評論 1883 瀏覽 8 收藏 19 分鐘

隨著2024年世界人工智能大會(WAIC2024)的召開,我們得以窺見人工智能領域的三大趨勢:AI智能體的興起、人形機器人商用的臨近,以及國產(chǎn)算力的突破。這些趨勢不僅標志著技術進步的新里程碑,也預示著人工智能將如何深刻地影響我們的未來。

短短10天內(nèi),上海連續(xù)舉辦兩個全球性重要展會——世界移動通信大會(MWCS2024)和世界人工智能大會(WAIC2024),無論瓢潑大雨還是烈日當空,AI都在魔都掀起一陣科技“颶風”。

馮·諾伊曼說:“技術的不斷加速進步,將會引發(fā)人類歷史上某個關鍵的奇點?!睆?018年首屆世界人工智能大會拂曉初現(xiàn)的“人工智能新紀元”曙光,到如今第七屆WAIC的召開,我們已然佇立在奇點的門檻之上,比以往任何時候都更貼近那個改寫歷史的瞬間。

透過WAIC2024的透鏡,我們清晰看到AI的三大趨勢。

趨勢一:“百模大戰(zhàn)”第二幕,大模型應用元年開卷AI Agent

與一年前的WAIC相比,今年的“百模大戰(zhàn)”名副其實,中國電信的“星辰”、阿里的“通義”、百度的“文心”、騰訊的“混元”、商湯科技的“日日新”、云知聲的“山?!薄⑷斯ぶ悄軐嶒炇业摹皶薄瓗缀趺總€展臺都有自己的“大模型”。

在“卷”了一年參數(shù)量級、可支持上下文token數(shù)、推理價格等等之后,AI Agent(AI助理/AI智能體)拉開了“百模大戰(zhàn)”的第二幕。

今年入選WAIC鎮(zhèn)館之寶的支付寶智能助理,便是一款基于螞蟻集團百靈大模型研發(fā)的AI Agent,用戶在支付寶首頁下拉就能喚起“小助理”,問一問就能獲得出行、健康、政務、金融等領域超8000項數(shù)字生活服務。

“同門師兄”阿里云的“通義for everyone”則集成通義大模型全棧能力,以通義千問最新基礎模型為基座,整合通義實驗室前沿的文生圖、智能編碼、文檔解析、音視頻理解、視覺生成等能力,最終形成一個All in one的全能AI助手。

在“騰訊元器”展區(qū),參會嘉賓可以通過添加提示詞、插件、知識庫等自由創(chuàng)建智能體(AI Agent),也可以在智能體商店選擇、使用智能體,以滿足不同場景下的需求。

除了這些針對個人用戶的“AI 助手”,作為大模型從通用走向垂直應用的重要“抓手”,AI Agent也出現(xiàn)在各類行業(yè)大模型中。

“為B端客戶打造一個AI Agent的過程,更像是一個打通企業(yè)流程、全面治理數(shù)據(jù)、重塑業(yè)務架構的契機?!敝袊娦糯竽P褪紫瘜<覄⒕粗t告訴《IT時報》記者,只有深入理解行業(yè)特性和場景需求,才能打造出真正實用的AI Agent,實現(xiàn)技術的有效落地。

與微軟在Windows 11中創(chuàng)建的Copilot(助手)不同,AI Agent更強調(diào)服務的協(xié)同性以及對自然語言的認知程度。

OpenAI對AI Agent的定義是以大語言模型(LLM)為大腦驅動,具有自主理解、感知、規(guī)劃、記憶和使用工具的能力,能自動化執(zhí)行復雜任務的智能體。它具有獨立思考和行動能力,不僅能夠處理信息,還能根據(jù)環(huán)境變化自主學習和適應,以實現(xiàn)特定的目標或解決特定的問題。

不久前蘋果剛剛發(fā)布的“Apple Intelligence”,便是一個整合操作系統(tǒng)、軟件、模型和數(shù)據(jù),強化對應用場景的理解,深刻洞察用戶需求的AI Agent。

第一個為AI Agent歡呼的大佬是比爾·蓋茨。早在1995年出版的《未來之路》一書中,他便描述過這種可以理解用戶自然語言并根據(jù)對用戶的了解完成多種任務的Agent,但直到ChatGPT橫空出世,才讓他看到了真正可實用AI Agent出現(xiàn)的可能。

在比爾·蓋茨看來,AI Agent將徹底顛覆人與機器的交互方式??深A見的未來是:智能手機上都會有一個AI Agent,它將集合手機中所有數(shù)據(jù),滿足用戶隨時隨地的需求;它將是企業(yè)的“AI程序員”,協(xié)助開發(fā)人員完成從編碼、測試、升級應用到故障排查、安全掃描和修復、優(yōu)化云資源等繁瑣重復的工作;或者是公司的“數(shù)據(jù)分析員”,自動匯集分析企業(yè)所有數(shù)據(jù),挖掘數(shù)據(jù)金礦價值,員工則只要用自然語言與AI Agent對話,便可以獲得相關業(yè)務數(shù)據(jù)和答案,例如公司政策、產(chǎn)品信息、業(yè)務結果、代碼庫、人員等。

螞蟻集團董事長兼CEO井賢棟也在本屆人工智能大會上表示,如同移動互聯(lián)網(wǎng)時代App是典型應用一樣,在人工智能時代,智能體將成為新的應用范式,為用戶帶來服務代際的升級,而專業(yè)智能體是大模型落地產(chǎn)業(yè)的有效路徑。醫(yī)療、教育、金融、制造、交通、農(nóng)業(yè)等各行業(yè)領域,未來都有可能依據(jù)自己的場景和特有經(jīng)驗、規(guī)則、數(shù)據(jù)等等,生成數(shù)以百萬量級的智能體,形成龐大生態(tài)。

然而,并不是所有的AI Agent都天然擁有強大的能力。AIGC時代,每個企業(yè)都不想錯過紅利,但每個企業(yè)也都在問:AIGC究竟能給自己帶來什么?讓生成式人工智能應用和助手真正發(fā)揮作用,它們必須了解組織的數(shù)據(jù)、客戶、運營和業(yè)務,但如今的許多助手都無法輕松個性化,而且它們的設計也無法滿足公司所需的數(shù)據(jù)隱私和安全要求。

事實上,AI Agent高度依賴基座大模型的能力、貫通整個企業(yè)體系架構的工程能力、研發(fā)者對行業(yè)的理解以及高質(zhì)量的數(shù)據(jù)支撐,以上任何一個條件缺失,都有可能使AI Agent只是看起來很美好,實際使用中卻因為不夠“專業(yè)”,導致應用無法落地。

“應用是未來大模型決戰(zhàn)的主要戰(zhàn)場,”在騰訊云副總裁、騰訊優(yōu)圖實驗室負責人吳運聲看來,目前幾乎所有大模型廠商都在智能體領域做進一步技術嘗試,模型以落地、實用為先,大模型的研發(fā)應用必須關注和解決具體業(yè)務場景,關注可用性和性價比。

趨勢二:具身智能扎堆繁榮,人形機器人進入商用前期

今年WAIC的鎮(zhèn)館之寶做了一道“大菜”——“十八金剛 人形機器人先鋒陣列”,網(wǎng)羅了中電科、復旦大學、達闥、傅利葉、鈦虎、星動紀元、卓益得、開普勒、宇樹等18個國內(nèi)領先的機器人產(chǎn)品,著實讓觀眾體驗了一回什么叫“具身智能元年”。來自主辦方的數(shù)據(jù)顯示,本屆大會合計展出的人形機器人超過25款。

1950年,“計算機之父”圖靈(Alan Turing)在他的論文中首次提出“具身智能”概念。嚴格意義上,機器人、工業(yè)機器人、擬態(tài)機器狗、智能網(wǎng)聯(lián)車,都是“身”,但人形依然是人類接受度最高的機器人形態(tài)。

從硬件條件上看,不少人形機器人已經(jīng)具備相當高的肢體靈敏度。比如,人形機器人(上海)有限公司自主研發(fā)人形機器人“青龍”,身高185cm、體重80kg、全身多達43個主動自由度,手指可以輕拿輕放杯子,即便是柔軟的面包,也能在抓起時保證面包外形的完整性。

上海開普勒探索機器人有限公司的通用人形機器人,身高175cm,體重70kg,全身具備40個關節(jié)自由度、80多個傳感器,具備復雜地形行走、智能規(guī)避障礙等多種功能。

國家地方共建人形機器人創(chuàng)新中心總經(jīng)理許彬一直有一種略帶激進的看法:具身智能是通往通用人工智能的必由之路,而且只有人形機器人才能實現(xiàn)通用人工智能,核心邏輯是人類社會存在的所有數(shù)據(jù),都是為了讓人類更好地生存和發(fā)展,所有對世界的理解、認知和情感的數(shù)據(jù),都是基于人體產(chǎn)生,而貓或魚等其它生物本體,不可能感知到人類世界的各個方面。

至少在現(xiàn)階段,具身智能尚不完全具備對物理世界的認知和交互能力,尤其是目前類GPT模式的大模型,在用于具身智能時,效果并不理想。

一家國產(chǎn)人形機器人創(chuàng)始人透露,之前曾將GPT-4V的圖像接口接入機器人,但大模型對物體的空間認知能力非常差,而且“記憶力”只有一秒。全球人工智能頂級科學家李飛飛也認為,大模型不具備知覺,參數(shù)再多也不行。

“我們需要構建一種‘知識+數(shù)據(jù)’驅動的智能模型,”中國工程院院士、同濟大學校長鄭慶華創(chuàng)新性地提出“知識森林”理論,將大模型中的碎片化知識與人類已有的知識鏈融合,從而生成具有可解釋推理的問題求解機制。

上海人工智能實驗室主任、首席科學家周伯文也認為,具身智能絕不僅僅是大模型加機器人的應用,而是大模型接收物理世界的反饋從而進化,“光靠看書或看視頻,永遠學不會游泳,你得親身扎到水里才能學會。大模型得通過機器人,扎進現(xiàn)實世界,才能真正理解物理世界?!?/p>

世界模型是當前具身智能領域最熱門的詞語。人工智能實驗室構建了“軟硬虛實”一體的機器人訓練場——浦源·桃源,同時攻關具身智能的“大腦”與“小腦”?!捌衷础ぬ以础笔鞘讉€城市級具身智能數(shù)字訓練場,構建了集場景數(shù)據(jù)、工具鏈、具身模型評測三位一體的開源具身智能研究平臺。作為大模型與機器人的連接層,涵蓋89種功能性場景、超10萬高質(zhì)量可交互數(shù)據(jù),有望解決領域內(nèi)數(shù)據(jù)匱乏、評測困難的問題。  

在大腦方面,人工智能實驗室通過具身智能體自身狀態(tài)認知、復雜任務分解分配、底層技能協(xié)同控制三方面創(chuàng)新,實現(xiàn)了大模型驅動的無人機、機械臂、機器狗三種異構智能體協(xié)同。在小腦方面,通過GPU高性能并行仿真和強化學習,可以高效實現(xiàn)機器人在真實世界里快速學習,并完成高難度動作,現(xiàn)在單卡1小時的訓練就能實現(xiàn)真實世界380天的訓練效果。

盡管完美匹配智能本體的世界模型還未出現(xiàn),但具身智能近兩年的發(fā)展已經(jīng)遠超從業(yè)者預期。

不久前,特斯拉CEO馬斯克在年度股東大會上表示,特斯拉將于2025年開始“限量生產(chǎn)”O(jiān)ptimus(擎天柱)人形機器人,明年特斯拉將有上千臺在運行的Optimus機器人。達闥更是在現(xiàn)場預售起具身智能人形機器人XR4,價格39.9萬元起。

宇樹科技CEO王興興認為,最遲明年年底之前,全球范圍內(nèi)一定會出現(xiàn)比人跑得快的人形機器人,“比如說100米跑進10秒,在體育項目和文藝演出上,人形機器人比做家務應該更得心應手?!?/p>

許彬對技術的迭代速度樂觀地判斷道,未來3~5年,人形機器人可以在一些工廠智能制造產(chǎn)線運行,未來5~10年可以在家庭服務等場景運用。

趨勢三:多路徑破局“鐵幕”,國產(chǎn)算力“春意浮動”

由AI帶來的算力風暴,還有被美方拉下的“科技鐵幕”,使算力芯片成為近幾年WAIC上備受關注的焦點。

2022年WAIC期間,更是正面遭遇美國宣布對華斷供英偉達高端芯片。如今,兩年過去,當美國不斷收緊芯片政策時,國產(chǎn)算力開始顯露出一絲春天的綠意。

“從今年開始,萬卡將是AI模型訓練主戰(zhàn)場的標配?!?月3日,國產(chǎn)芯片廠商摩爾線程創(chuàng)始人兼CEO張建中宣布,夸娥(KUAE)智算集群解決方案向萬卡萬P萬億參數(shù)通用算力集群升級,以全功能GPU為底座,打造能承載萬卡規(guī)模、具備萬P級浮點運算能力的國產(chǎn)通用加速計算平臺,為萬億參數(shù)級別的大模型訓練提供平臺。

截至目前,至少已有兩家國產(chǎn)芯片廠商實現(xiàn)了單池萬卡集群的能力,為我國自主可控的AI大模型攻堅建立了關鍵基礎設施。

新型異構算力架構也在嘗試解決算力規(guī)?;y題。無問芯穹推出的千卡規(guī)模異構芯片混訓平臺,采用“MxN”方案,M層是大模型,N層是各種國內(nèi)外芯片,可以通過算子優(yōu)化、自動編譯、不同芯片耦合等技術一鍵部署模型,支持Baichuan2、ChatGLM3、Llama2、Qwen系列等20多個模型,在AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA等六種異構芯片上混合訓練,算力利用率最高達97.6%。

無問芯穹希望解決國內(nèi)AI領域存在的“生態(tài)豎井”難題,雖然不同芯片組成的算力構成了集群,但在生態(tài)邏輯上,整個軟件棧并不能夠很好地協(xié)調(diào)和打通。無問芯穹構建的是一個AI Native基礎設施,可以適配中國獨特的多模型、多芯片生態(tài)格局,將多種異構算力構建成大系統(tǒng),快速完成大模型的訓練和推理。

受限于芯片禁令,國內(nèi)在單池超大規(guī)模集群建設上面臨困境,只有幾個互聯(lián)網(wǎng)大廠和電信運營商有芯片儲備和技術能力,而根據(jù)大模型的Scaling Law(尺度定律),至少在現(xiàn)有路徑上,更多的算力才能造就更多的智能涌現(xiàn)。

電信運營商也開始尋找另外的方向,以網(wǎng)強算?!拔覀円呀?jīng)在實驗室實現(xiàn)了百公里內(nèi)的并池計算?!眲⒕粗t告訴記者,為了突破單池算力限制,中國電信正在嘗試利用400G/800G的超高寬帶將兩個位于不同區(qū)域的實驗室,無損高速連接起來,同一個預訓練任務可以同步部署在兩個相隔百公里的實驗室里,而且連續(xù)訓練時長與在同一個物理數(shù)據(jù)中心內(nèi)訓練相當,“下一步,我們還將在京滬兩個單池萬卡群間進行超高速直連測試”。

一旦實驗成功,將大大緩解國產(chǎn)大模型的“算力焦慮”。GPT-4模型有2萬億參數(shù)和8萬億token,10000顆英偉達H100,需要訓練三個月,換成最新的超級芯片BX200,10000顆芯片只需要10天。而受限于產(chǎn)能,目前能夠穩(wěn)定供貨萬卡以上的國產(chǎn)芯片并不多。如果數(shù)據(jù)中心間網(wǎng)速能夠幾乎等同于數(shù)據(jù)中心內(nèi)部高速互聯(lián),此前全國各地零散建設的地方智算中心,將可被有效利用。

多路徑破局“鐵幕”的嘗試,讓國產(chǎn)算力和國產(chǎn)大模型的春天悄然而至。

作者:IT時報記者 郝俊慧

編輯:孫妍

本文由人人都是產(chǎn)品經(jīng)理作者【IT時報】,微信公眾號:【IT時報】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!