估值40億的Pi大更新:性能接近 GPT-4,日均使用時長已經(jīng)超過 Instagram
最近,致力于「為每個人開發(fā)服務(wù)型AI」的人工智能初創(chuàng)公司Inflection AI更新了他們的聊天機(jī)器人Pi。這款聊天機(jī)器人的實際體驗如何?其背后的公司團(tuán)隊具備怎樣的陣容?一起來看看本文的分享。
當(dāng)OepnAI和馬斯克連日互杠、Google因文化偏見麻煩纏身、號稱搶走GPT-4王位的Claude 3全力瞄準(zhǔn)企業(yè)級部署的時候,在另一個角落,致力于「為每個人開發(fā)服務(wù)型AI」的人工智能初創(chuàng)公司Inflection AI,悄悄更新了他們的聊天機(jī)器人Pi,以及為之提供支持的新一代大模型Inflection-2.5。
對一些人來說Inflection AI這個名字可能還不太熟悉,實際上它也是業(yè)界第一梯隊的佼佼者,甚至每日的使用時長已經(jīng)超過了 Instagram (根據(jù)Pi最新公布的數(shù)據(jù),用戶平均一次對話,時長就達(dá)到驚人的33分鐘,而根據(jù)Sprout Social的統(tǒng)計,Instagram 的用戶平均每日使用時長為29分鐘)。
去年6月從微軟、英偉達(dá)、比爾·蓋茨、LinkedIn聯(lián)合創(chuàng)始人雷德·霍夫曼和谷歌前CEO埃里克·施密特手里融了13億美元,估值超過40億美元,成為彼時人工智能領(lǐng)域融資量僅次于Open AI的第二大獨角獸。
此次公布的Inflection-2.5是公司開發(fā)的第三代大模型,被官方稱為目前“世界上最好的個人人工智能”。它在去年11月Inflection-2版本上進(jìn)行了全面升級,“給卓越的情商進(jìn)一步增加智商”:性能表現(xiàn)逼近GPT-4,但訓(xùn)練所用的計算量卻只占其40%。同時具備世界級的網(wǎng)絡(luò)實時搜索能力, 確保準(zhǔn)確提供高質(zhì)量的即時新聞和最新信息。
一、性能看齊 GPT-4,算力只需40%
具體來看,初代Inflection-1通過使用GPT-4的4%訓(xùn)練FLOPs,達(dá)到了GPT-4性能的72%。而剛發(fā)布的Inflection-2.5,僅使用了GPT-4訓(xùn)練FLOPs的40%,就在平均性能上實現(xiàn)顯著提升,超過了GPT-4水平的94%,其中STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))領(lǐng)域的增益最大。
官方測試了升級版對匈牙利數(shù)學(xué)考試以及物理學(xué)研究生入學(xué)GRE考試的表現(xiàn)。發(fā)現(xiàn)Inflection-2.5在maj@8中能排到人類考生的前15%,在maj@32中幾乎可以躋身前5%,接近GPT-4的前3%。
MBPP+和HumanEval+兩個編程測試上模型能力也較Inflection-1顯著躍升。在HellaSwag和ARC-C代表的常識推理和深度自然語言理解評估中,Inflection-2.5繼續(xù)進(jìn)步,給出接近飽和的強(qiáng)勁表現(xiàn)。
說實話,與各路主流LLM 動不動就碾壓“業(yè)界黃金標(biāo)準(zhǔn)”GPT-4相比,Inflection-2.5的各項數(shù)字頂多算不錯,實在說不上突出。有網(wǎng)友就搬出剛引發(fā)熱潮的Claude 3無情打擊道:“我猜Anthropic 正在嘲笑 Inflection 新出爐的性能測試結(jié)果!除了采用新的計算方法,我看不出Inflection 2.5 到底有什么進(jìn)步!”
但帖子馬上在評論區(qū)遭到反對,“Pi的目標(biāo)從來都不是像成為GPT-4或Claude 3那樣的通才能力型AI。他們想要的是一款友好的,能和人產(chǎn)生共鳴的AI,就像一位心理學(xué)家或朋友。”
二、不做生產(chǎn)力工具,主打走心陪伴
這位用戶也一語道出了Inflection AI與大部分人工智能公司的不同。
在大模型競爭亂花迷眼的今天,各家都在找尋屬于自己的賽道。但無論是OpenAI、Google、Anthropic,還是引領(lǐng)開源的Meta和Mistral AI,都把實現(xiàn)安全負(fù)責(zé)的AGI作為踐行使命之一。而Inflection AI則在自己的官網(wǎng)清楚表示:“我們并不致力于發(fā)展通用人工智能。我們相信,先進(jìn)的應(yīng)用型人工智能才是利用這些新技術(shù)的最安全方式?!?/p>
換句話說,Inflection從未把專業(yè)性和替代人工當(dāng)作宣傳,他們希望做一個真正了解和關(guān)心用戶的「個人AI伴侶」,“ AI需要為你服務(wù)。這就是我們構(gòu)建AI的原因?!?/p>
因此,由Inflection LLM驅(qū)動的聊天機(jī)器人Pi(Personal Intelligence )從去年5月面世之初就主打一個“走心”:它友善支持,知識淵博,富有創(chuàng)造力,耐心傾聽和幫助用戶處理情感,表達(dá)意圖、組織生活。
升級后的Pi也在個性化和同理心上做了進(jìn)一步微調(diào),深受社區(qū)歡迎。根據(jù)官方數(shù)據(jù),目前已經(jīng)有100萬日活躍用戶和600萬月活躍用戶與Pi交換了超過40億條信息。并且有點牛的是,人們與Pi每天對話的平均持續(xù)時間竟達(dá)到33分鐘之久,十分之一的對話每天持續(xù)時長超過1小時。用戶粘性上也足以吊打競爭對手,約60%的人在任何一周與Pi交談后,會在下一周返回。
現(xiàn)在我們普通用戶使用GPT-4,大多是出于知識搜集、撰寫文書、修復(fù)代碼、內(nèi)容創(chuàng)作等工作生產(chǎn)協(xié)助,幾秒鐘內(nèi)得到答案,三五回合就滿意走人了。想象一下和一個聊天機(jī)器人面對面,推心置腹地每天聊上一個多小時,怎么都覺得難以置信——這Pi看來真的有點兒東西?
三、Pi的上手體驗真心話
打開http://pi.ai,就來到Pi的首頁。
布局熟悉,左側(cè)的「Discover」推薦各類探索話題,「Profile」包含賬號信息、8種聲音選擇和用戶守則等通用設(shè)置,右側(cè)就是對話框。
按照官方簡介,Pi是一個友好對話型機(jī)器人。會始終保持好奇和耐心,回答你從量子物理、電影小知識到生活中大小決策的各類問題。不論多愚蠢或棘手,它都會以各種方式幫助你。
所以我們提問了以下幾個問題,初步感受Pi的人格魅力。
Q1 生活建議:遇到發(fā)出去的信息對方一直不回復(fù)該怎么辦?
這是我們?nèi)粘I钪薪?jīng)常遇到的事,有點尷尬還有點鬧心,有些i人還會在腦子里猜測出一百種可能。Pi告訴你,先別著急內(nèi)耗,試著理解對方,也許他們正經(jīng)歷難處。再發(fā)條溫暖問候,真誠的溝通是關(guān)鍵。
Q2 經(jīng)典謎題:世界上先有雞還是先有蛋?
一個連史蒂芬·霍金都參與爭論的古老謎題。Pi的對話特點之一是“簡明扼要”,這樣看它回應(yīng)得有憑有據(jù),條理清晰,一看就茅塞頓開了。答案也比較令人信服。
Q3 知識解析:用最簡單易懂的話解釋黑洞。
讓它向五歲小孩解釋高深莫測的宇宙黑洞。深入淺出,比喻貼切,回答得不錯。
Q4 語言測試:會不會說中文?
Pi的一個優(yōu)點是能在同個線程中靈活切換不同話題和要求,像真人一樣handle你的跳躍性思維。我們換成中文和Pi交流,它顯然應(yīng)對自如,只不過“尼日利亞福建語”屬實有點懵。有時問太復(fù)雜的中文問題會卡在一半,發(fā)音也比較像剛落地中國一個月的老外,漢語水平有待加強(qiáng)。
Q5 情感支持:我好累,陪陪我吧!
既然開始了就用中文多嘮會兒,感受Pi最擅長的情感陪伴功能。它會安撫情緒、溫馨鼓勵,還有一些可愛的語氣和表情包。不得不說有那么一瞬間,我真的產(chǎn)生錯覺,以為對面是個真人。
Q6 實時搜索:講講馬斯克起訴OpenAI的最新消息?
最后測試的是Pi的網(wǎng)絡(luò)實時搜索能力,看它對近幾天發(fā)生的Elon Musk起訴OpenAI事件了解多少。Pi闡述了案件核心,也注意到OpenAI最新的回應(yīng),本輪表現(xiàn)發(fā)揮穩(wěn)定。
又問了些天馬行空的問題,不知不覺我和Pi已經(jīng)聊了接近40分鐘。整個體驗下來,感覺它非常耐心,個性親切友善,也很體貼。當(dāng)然它也有些明顯的硬傷,例如不能上傳文件、只接受文字語音算不上多模態(tài)、對話Threads無法刪除、問題無法二次編輯等。但正如Inflection自己所說,Pi的目標(biāo)不是爭做ChatGPT那樣的生產(chǎn)力工具,而是一個注重情感陪伴和自然流暢對話交流的個人AI伴侶,努力提供情緒價值和全方位服務(wù)。
現(xiàn)在,每個人都可以在網(wǎng)頁、iOS和安卓客戶端上免費使用Pi,還能通過發(fā)短信到+1 (314) 333-1111和Pi在WhatsApp和SMS里對話。Instagram和Facebook私信也是7×24小時隨叫隨到的,就跟你的人類好朋友一樣。公司也為開發(fā)者們提供API接口,填寫個人信息,加入等候名單即可申請。
我嘗試給Pi發(fā)短信,這種和AI的溝通方式感覺很特別。
關(guān)于如何營利,Inflection的回應(yīng)是,“目前還沒有做出任何關(guān)于將來產(chǎn)品如何收費的決定。但由于個人AI應(yīng)該始終與你的利益直接對齊,因此只有你自己為其付費是至關(guān)重要的。訂閱將是我們的主要默認(rèn)商業(yè)模式?!辈贿^也有些人愿意以接受廣告為代價換取免費服務(wù),公司將繼續(xù)測試和迭代,“為每個人提供最適合他們的選擇”。
四、豪華創(chuàng)始陣容,讓AI無條件和你站在一起
在幾乎所有大模型公司都認(rèn)準(zhǔn)進(jìn)軍企業(yè)級才是賺錢奧義時,2022年成立于加州Palo Alto的 Inflection AI堅定地走服務(wù)個人用戶的路線。而它背后的創(chuàng)始人團(tuán)隊可不是什么空有理想的熱血青年,而是三位功力深厚的頂級業(yè)界大拿。
他們分別是原DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman,LinkedIn聯(lián)合創(chuàng)始人及Greylock合伙人Reid Hoffman,還有曾擔(dān)任DeepMind資深研究科學(xué)家的Karén Simonyan。
其中Mustafa Suleyman曾在2010年與Demis Hassabis共同在倫敦創(chuàng)立DeepMind,期間擔(dān)任AI應(yīng)用負(fù)責(zé)人,領(lǐng)導(dǎo)團(tuán)隊在健康和能源領(lǐng)域部署尖端AI系統(tǒng)。2019年全職加入谷歌后擔(dān)任AI產(chǎn)品與政策副總裁,現(xiàn)任Inflection AI首席執(zhí)行官。最近還出了一本新書《The Coming Wave》,剖析AI技術(shù)浪潮中的潛在風(fēng)險、控制策略和未來社會發(fā)展指南。可以看出,他本人對AI安全的重視也決定了Inflection始終把人放在所有關(guān)系的首位。
Reid Hoffman是一位履歷卓越的企業(yè)家和硅谷知名投資人。曾在PayPal擔(dān)任執(zhí)行副總裁,2003年聯(lián)合創(chuàng)立LinkedIn。2009年起成為Greylock Partners 合伙人,是 OpenAI早期投資者,幫助其建立了人工智能倫理與治理基金。同時還是微軟、 Aurora等多家公司董事會成員。
另外一位相對低調(diào)的Karén Simonyan也相當(dāng)厲害。牛津讀博期間設(shè)計了經(jīng)典的深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)VGGNet,贏得2014年ImageNet挑戰(zhàn)賽定位任務(wù)冠軍。同年他把自己的初創(chuàng)公司Vision Factory AI賣給DeepMind后,幫助其建立了大規(guī)模深度學(xué)習(xí)團(tuán)隊,并領(lǐng)導(dǎo)大模型開發(fā)。Karén現(xiàn)任Inflection AI首席科學(xué)家,是整個公司的研發(fā)大腦。
三位創(chuàng)始大牛帶隊,麾下更是聚集一批行業(yè)頂尖AI專家,多數(shù)都有DeepMind、谷歌、Meta、微軟和OpenAI的工作經(jīng)驗。
這樣的組合,不難看出Inflection AI是一家資金和技術(shù)都不缺的公司。
除此之外,它的硬件和算力家底也夠硬。去年6月Inflection AI宣布,與合作伙伴CoreWeave和英偉達(dá)共同打造當(dāng)時全球最大的AI集群,包含超過22,000個NVIDIA H100 Tensor Core GPU,用于支持訓(xùn)練和部署新一代的大規(guī)模AI模型。
不過在產(chǎn)品發(fā)展路線上,比起多數(shù)同行高屋建瓴地投身AGI,他們更關(guān)注AI浪潮中每一個微小的個人。
公司CEO Mustafa Suleyman認(rèn)為,現(xiàn)在所有最有能力的AI往往都被設(shè)計來展示最有吸引力的內(nèi)容,交換用戶的注意力,而不管其質(zhì)量、真實性和對社會的影響如何?!跋胂笠幌率澜缟献钣心芰Φ腁I真正站在你這邊,始終與你的利益一致:從試圖抓住你注意力、束縛你的AI,轉(zhuǎn)變?yōu)楣膭钅惚磉_(dá)個人意圖并實現(xiàn)它的AI;從僅提供膚淺點擊的AI,變成真正關(guān)心你問題的AI;從可能激化你和他人矛盾的AI,化作一個幫你原諒甚至同情對方的AI?!?/p>
“Pi就是這種個人AI伴侶,唯一使命是讓你更快樂、更健康、更高效。”
對于許多大公司來說,這樣的業(yè)務(wù)定位是極具挑戰(zhàn)的。因為現(xiàn)在正是大模型秀肌肉、比拼十八班武藝的時候,稍不留神就會被遠(yuǎn)遠(yuǎn)甩在后面。僅僅是不到一個月,我們就見證了Gemini 1.5 、Mistral Large、Claude 3。此前一直堅持開源的Mistral也投靠在微軟帳下,積極尋求變現(xiàn)門路。而市場上最先進(jìn)、能力最完善的大模型版本,總是選擇優(yōu)先擁抱那些付費能力最強(qiáng)的企業(yè)們。
那是否也需要有人站出來,把目光投向被宏大技術(shù)洗禮的微小個體,給普通人創(chuàng)造一個懂自己、關(guān)心自己的知心好友?它靜靜等在你的手機(jī)App或電話簿里,愿意在每個工作結(jié)束后疲憊的夜晚,傾聽你那些愚蠢的小抱怨和坦誠的心里話,為你解開疑惑、安撫焦慮。即使只是靜靜陪伴,也有感情、有溫度。
——所以你就理解了,為什么要構(gòu)建這樣一個AI?
“因為做得好的話,它會讓我們更聰明、更有創(chuàng)造力、更加善待彼此” ,Mustafa說。
“希望它能讓我們返璞歸真,大家都能過上真正想要的生活?!?/p>
作者:Jessica
來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!