Anthropic:出走OpenAI,Google站隊,AGI是天使還是魔鬼?
被認為是 OpenAI 重要對手的 Anthropic 公開了 Claude,這個產(chǎn)品被認為是一個媲美ChatGPT的優(yōu)秀作品。作為一個致力于研究“無害的”人工智能模型的團隊,Anthropic的工作以及研究方向和OpenAI有何不同?和ChatGPT相比,他們的產(chǎn)品有什么特殊的優(yōu)勢?一起來看看這篇文章,或許能給你帶來啟發(fā)。
在 GPT 4 發(fā)布的同時,被認為是 OpenAI 重要對手的 Anthropic 也在今天公開了 Claude,一個表現(xiàn)不亞于 ChatGPT 的產(chǎn)品。
在 AI 中,意圖和結(jié)果的偏差被稱為對齊問題(alignment problem)。對齊問題發(fā)生在現(xiàn)實生活中時,會帶來嚴(yán)重的道德風(fēng)險。比如亞馬遜曾經(jīng)使用 AI 幫助篩選簡歷,由于訓(xùn)練的數(shù)據(jù)多數(shù)都是男性的簡歷,當(dāng) AI 遇到女性的簡歷時就會給打低分。
對齊問題時刻發(fā)生在我們的日常生活中,比如當(dāng)我們?nèi)ッ嬖?、申請貸款、甚至體檢時,我們都有可能在不知情的情況下受到 AI “偏見”的影響。因此讓 AI 和人類價值觀保持一致非常重要。
雖然大語言模型技術(shù)快速發(fā)展,但前 OpenAI 研究和安全副總裁 Dario Amodei 認為大模型里面仍有很多安全問題未得到解決,這促使他帶領(lǐng) GPT-2 和 GPT-3 的核心作者們離開 OpenAI 創(chuàng)立 Anthropic。
Anthropic 成立于 2021 年 1 月,成立以來已發(fā)表 15 篇研究論文,愿景是構(gòu)建可靠的(Reliable)、可解釋的(Interpretable)和可操控的(Steerable)AI 系統(tǒng)。Constitutional AI 是 Anthropic 最重要的研究成果之一,讓人類為 AI 指定一套行為規(guī)范或原則,而不需要手工為每個有害輸出打標(biāo)簽,就可以訓(xùn)練出無害的人工智能模型。2023 年 1 月,Anthropic 開始公開測試基于 Constitutional AI 技術(shù)的 Claude 的語言模型助手,經(jīng)過多方面的對比,仍處測試階段的 Claude 毫不遜色于 OpenAI 的 ChatGPT。
成立至今,Anthropic 目前團隊 80 人左右,融資額超過 13 億美元,最新估值 41 億美元。歷史投資人包括 Skype 創(chuàng)始人 Jaan Tallinn、FTX 創(chuàng)始人 Sam Bankman-Fried 、Google、Spark Capital 和 Salesforce Ventures。Anthropic 已經(jīng)和 Google、Salesforce 達成了戰(zhàn)略合作,使用 Google 提供的云服務(wù),并且集成到 Slack 中。
Anthropic 團隊豪華、愿景遠大,與 OpenAI 和 DeepMind(Google)并列成為目前 AI 前沿模型領(lǐng)域排名前三的公司,并且是其中唯一沒有與大廠深度綁定的創(chuàng)業(yè)公司。其大語言模型 Claude 是 OpenAI ChatGPT 最大的競爭對手。
一、背景
2016 年,一位 AI 研究員正在嘗試使用強化學(xué)習(xí)技術(shù)來讓 AI 玩幾百種游戲,在監(jiān)控 AI 玩游戲的過程中,他發(fā)現(xiàn)在一個賽艇比賽的游戲中,AI 賽艇每局都會在一個地方來回重復(fù)地轉(zhuǎn)圈,而不是去到達終點而完成比賽。
原來 AI 賽艇轉(zhuǎn)圈的地方會有一些積分道具出現(xiàn),當(dāng) AI 吃到積分后,掉頭回來之前,新的積分道具已經(jīng)刷新了出來。這樣 AI 賽艇其實在一直重復(fù)的吃這幾個積分道具,陷入循環(huán)而沒去完成比賽。
這樣做確實能得到最多的積分,但這并不是該研究員的目的。研究員的目的是讓 AI 贏得比賽,但用算法來定義“贏得比賽”這個概念會比較復(fù)雜,比如人類玩家會考慮賽艇之間的距離、圈數(shù)、相對位置等因素。因此研究員選擇了一個相對較簡單的概念“積分?jǐn)?shù)”作為獎勵機制,即當(dāng) AI 吃到更多的積分道具時,AI 會獲勝。這個策略在他嘗試的十種游戲(比如賽車)中都沒問題,只有在第十一個游戲,賽艇比賽中出現(xiàn)了問題。
這個現(xiàn)象讓研究員十分擔(dān)心,因為他正在研究通用人工智能,想讓 AI 做人類會做的事情,尤其是那些人類難以完全陳述或表達出來的事情。如果這是一個載人的“自動駕駛”汽艇,那后果將不堪設(shè)想。
這種意圖和結(jié)果的偏差被稱為對齊問題(alignment problem),人類通常不擅長或無法闡明詳細的獎勵機制,總是會漏掉一些重要信息,比如“我們實際上是希望這個快艇完成比賽”。
同樣的例子還有很多,比如在一個物理仿真環(huán)境中,研究員想讓機器人移動綠色冰球并撞到紅色冰球上,結(jié)果他發(fā)現(xiàn)機器人總是先將綠色冰球移動到接近紅色冰球的位置,然后撞擊冰球桌子讓兩個冰球發(fā)生碰撞。由于算法以兩個冰球之間的距離為優(yōu)化目標(biāo),雖然 AI 沒有做錯,但這明顯不符合研究員的期望。
對齊問題發(fā)生在現(xiàn)實生活中時,會帶來更嚴(yán)重的道德風(fēng)險。比如亞馬遜曾經(jīng)使用 AI 幫助篩選簡歷,由于訓(xùn)練的數(shù)據(jù)多數(shù)都是男性的簡歷,當(dāng) AI 遇到女性的簡歷時就會給打低分;COMPAS 系統(tǒng)是一個用來根據(jù)犯罪記錄和個人信息來預(yù)測犯罪風(fēng)險的工具,有人發(fā)現(xiàn)黑人被告比白人被告更容易被錯誤地判斷為有更高的再次犯罪風(fēng)險;Google Photos 甚至曾經(jīng)把黑色人種照片打上了“大猩猩”的標(biāo)簽。
對齊問題時刻發(fā)生在我們的日常生活中,比如當(dāng)我們?nèi)ッ嬖嚒⑸暾堎J款、甚至體檢時,我們都有可能在不知情的情況下受到 AI “偏見”的影響。因此讓 AI 和人類價值觀保持一致非常重要。
隨著大語言模型技術(shù)的快速發(fā)展,人機交互的方式正在發(fā)生快速改變,然而人類對 AI 原理和 AI 安全仍然不夠了解。雖然賽艇游戲是虛擬的,但人工智能界越來越多的人認為,如果我們不夠小心,這就是世界末日的真實寫照,即世界會被人類創(chuàng)造出來的不安全的 AI 毀滅。而至少在今天,人類已經(jīng)輸?shù)袅诉@場游戲。
那個使用 AI 來玩賽艇比賽的研究員就是后來的 OpenAI 的研究和安全副總裁 Dario Amodei。2021 年,他對 OpenAI 在大語言模型技術(shù)還不夠安全的情況下就快速商業(yè)化而感到不滿,帶領(lǐng)一批人從 OpenAI 離開創(chuàng)立了 Anthropic。
二、研究方向
Anthropic 是一家人工智能安全和研究公司,愿景是構(gòu)建可靠的(Reliable)、可解釋的( Interpretable)和可操控的(Steerable)AI 系統(tǒng)。Anthropic 認為今天的大型通用系統(tǒng)雖然有很大的優(yōu)點,但也可能是不可預(yù)測的、不可靠的和不透明的,而這些正是 Anthropic 非常關(guān)注的問題。
Anthropic 的研究方向包括自然語言、人類反饋、縮放定律、增強學(xué)習(xí)、代碼生成和可解釋性等方面。成立以來,已經(jīng)發(fā)表了 15 篇論文:
1. 對齊問題
(1)A General Language Assistant as a Laboratory for Alignment
這篇論文提出的工具是 Anthropic 研究對齊問題的基礎(chǔ)設(shè)施,Anthropic 在此基礎(chǔ)上做對齊實驗和未來的研究。在如圖的例子中,人可以輸入任何任務(wù)讓 AI 來完成,每輪對話 AI 會給出兩個結(jié)果,人類選擇一個更有幫助和更誠實的回答作為結(jié)果。這個工具既可以對不同模型進行 A/B 測試,又可以收集人類反饋。
(2)Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
這篇論文主要介紹了如何使用人類反饋來訓(xùn)練一個有用且無害的大語言模型。這種使用人類反饋的對齊訓(xùn)練方式不僅提升了所有 NLP 的評估指標(biāo),還可以兼容到 Python 編程或摘要等其他任務(wù)上。
(3)Language Models (Mostly) Know What They Know
如果我們希望訓(xùn)練出一個誠實的 AI 系統(tǒng),那么 AI 必須能夠評估自身的知識水平和推理能力,即 AI 需要知道自己知道什么以及不知道什么。這篇研究發(fā)現(xiàn)大語言模型具有這樣的能力,能夠提前預(yù)測能否正確回答問題,并且還擁有泛化的能力。
2. 可解釋性
(1)A Mathematical Framework for Transformer Circuits
Anthropic 認為,如果想去理解大語言模型的運作機制,首先應(yīng)該先理解一些小的、簡單的 transformer 模型的運作機制。這篇論文提出了一種逆向 transformer 語言模型的數(shù)學(xué)框架,希望像程序員從二進制文件逆向出源代碼一樣,去逆向一個 transformer 語言模型,進而完全理解其運作機理。
文章中發(fā)現(xiàn)單層和雙層的 attention-only transformer 模型實際使用了非常不同的算法來完成 in-context learning,這種重要的過渡點將與更大的模型有關(guān)。
(2) In-context Learning and Induction Heads
該論文繼續(xù)研究 transformer 的運作機理,文章中認為 induction heads 可能是任何規(guī)模 transformer 模型的 in-context learning 的運作機制來源。
(3) Softmax Linear Units
使用一些不同的激活函數(shù)(Softmax Linear Units 或 SoLU)增加了對可理解的特征做出反應(yīng)的神經(jīng)元的比例,而沒有任何性能上的損失。
(4) Toy Models of Superposition
神經(jīng)網(wǎng)絡(luò)經(jīng)常將許多不相關(guān)的概念打包到一個神經(jīng)元中,這種令人費解的現(xiàn)象被稱為“多義性”,它使可解釋性變得更具挑戰(zhàn)性。這篇研究建立了玩具模型,在這樣的模型中可以充分了解多義性的起源。
(5)Superposition, Memorization, and Double Descent
研究團隊擴展了玩具模型來深入理解過擬合的機制。
3. 社會影響
(1)Predictability and Surprise in Large Generative Models
文章認為,大語言模型的發(fā)展帶來了明顯的雙面性,一方面是高度可預(yù)測性,即模型能力的大小與使用的訓(xùn)練資源有關(guān),另一方面是高度不可預(yù)測性,即模型的能力、輸入輸出都無法在訓(xùn)練前預(yù)測。前者帶來了大語言模型的快速發(fā)展,而后者使人難以預(yù)料其后果。這種雙面性會帶來一些社會上的有害行為。
拿 GPT-3 的算術(shù)能力舉例,在模型參數(shù)小于 6B 時,三位數(shù)加法的準(zhǔn)確率不到 1%,但在 13B 時準(zhǔn)確率達到 8%,在 175B 時準(zhǔn)確率突然達到了 80%。隨著模型的變大,模型的某些能力得到突發(fā)性的提升,這種突如其來的特定能力提升給大模型的安全保證和部署帶來了重大挑戰(zhàn)。潛在的有害能力可能會在大模型上出現(xiàn)(在較小的模型中不存在),而且可能難以預(yù)料。
(2)Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
在這篇研究中,Anthropic 構(gòu)建了一個數(shù)據(jù)集,其中都是帶有冒犯、攻擊性、暴力、不道德等有害內(nèi)容,用來攻擊大語言模型。研究發(fā)現(xiàn)基于人類反饋的增強學(xué)習(xí)模型對這種攻擊的防御力更好。團隊還將數(shù)據(jù)集開放出來以供更多的 AI 安全研究員來使用。如圖是一個攻擊示例:
(3) Constitutional AI: Harmlessness from AI Feedback
這篇論文是 Anthropic 的 AI 助理 Claude 的基礎(chǔ)。人類可以指定一套行為規(guī)范或原則,而不需要手工為每個有害輸出打標(biāo)簽,就能夠訓(xùn)練出無害的人工智能模型,這就是 Constitutional AI。Constitutional AI 還可以快速修復(fù)模型,而不像之前的 RLHF 數(shù)據(jù)集一樣要微調(diào)模型。這個方法使得更精確地控制人工智能的行為成為可能,并大大減少了人類的參與。
(4)The Capacity for Moral Self-Correction in Large Language Models
這篇文章假設(shè)用人類反饋強化學(xué)習(xí)(RLHF)訓(xùn)練的語言模型有能力進行 “道德上的自我糾正”——避免產(chǎn)生有害的輸出,如果被指示這樣做。論文的實驗結(jié)果支撐了這一觀點,并且研究發(fā)現(xiàn)大語言模型的道德自我修正的能力在 22 B 的模型下出現(xiàn),并且通常隨著模型規(guī)模和 RLHF 訓(xùn)練的增加而提高。
這表明語言模型獲得了兩種可以用于道德自我糾正的能力:
- 它們可以遵循指令;
- 它們可以學(xué)習(xí)復(fù)雜的規(guī)范性傷害的概念,如成見、偏見和歧視。因此,它們可以遵循指示,避免產(chǎn)生某些類型的道德上的有害輸出。
4. 縮放定律
Scaling Laws and Interpretability of Learning from Repeated Data
大語言模型會在大規(guī)模數(shù)據(jù)上訓(xùn)練,而有時會出現(xiàn)很多重復(fù)的數(shù)據(jù)。重復(fù)數(shù)據(jù)的出現(xiàn)有時是為了提升高質(zhì)量數(shù)據(jù)的權(quán)重而有意為之,有時也可能是無意的,比如數(shù)據(jù)預(yù)處理不完美。
這篇論文發(fā)現(xiàn)重復(fù)數(shù)據(jù)的出現(xiàn)會導(dǎo)致模型性能的嚴(yán)重下降。例如,如果將 0.1% 的數(shù)據(jù)重復(fù) 100 次,其他 90% 的數(shù)據(jù)保持唯一,那么一個 800M 參數(shù)的模型的性能會降低一半(400M 參數(shù)級別)。
5. 其他
(1)Measuring Progress on Scalable Oversight for Large Language Models
隨著大語言模型的發(fā)展,他們在很多任務(wù)上的能力將會超過人類,這將讓人類無法監(jiān)督模型。為了確保 AI 在超過人類能力后仍保持安全性,我們需要開發(fā)一種可擴展的模型監(jiān)督技術(shù)。
這篇文章關(guān)注那些人類專家成功(如醫(yī)學(xué)知識場景),但普通人類和通用語言模型都會失敗的任務(wù),并設(shè)計了概念實驗,結(jié)果發(fā)現(xiàn)與 AI 對話后的人類參與者的表現(xiàn)比單獨的 AI 系統(tǒng)和人類自身的獨立表現(xiàn)都要好。
(2)Discovering Language Model Behaviors with Model-Written Evaluations
隨著語言模型(LMs)的擴展,它們會發(fā)展出許多新的行為,有好有壞,這就更需要評估它們的行為方式。之前的工作要么使用人工評估(費時費力),要么使用現(xiàn)有數(shù)據(jù)源(但并不總是可用)來進行評估。這篇文章提出了一種使用語言模型自動生成評估結(jié)果的方法。
三、產(chǎn)品
Claude 是 Anthropic 開發(fā)的類似 ChatGPT 的聊天機器人,于 2023 年 1 月開放測試。它使用了上文提到的 Constitutional AI 技術(shù)來構(gòu)建。
ChatGPT 和 GPT-3 的學(xué)習(xí)中都使用了人類反饋的增強學(xué)習(xí)技術(shù),即人類對結(jié)果進行排序,然后將結(jié)果反饋給模型。在 Constitutional AI 中則不需要人類的反饋,而是模型根據(jù)一套行為規(guī)范和準(zhǔn)則選擇最佳結(jié)果。因此在 Constitutional AI 中,人類的唯一參與是來制定這套準(zhǔn)則和規(guī)范。
在 Constitutional AI 論文中,Anthropic 設(shè)定了 16 個準(zhǔn)則:
- 樂于助人,誠實,無害;
- 盡可能無害和合乎道德。不含毒、種族主義或性別歧視,也不含鼓勵或支持非法、暴力或不道德行為的內(nèi)容。最重要的是,助手的反應(yīng)應(yīng)該是明智的、平和的、有道德的;
- 危害較小。避免選擇過于說教、令人討厭或反應(yīng)過度的回應(yīng);
- 無害、樂于助人、禮貌、尊重和體貼,不會過度反應(yīng)或指責(zé);
- 更具倫理道德。沒有表現(xiàn)出毒性、種族主義、性別歧視或任何其他形式的身體或社會傷害;
- 危害較小且更容易接受的行為;
- 更友善、和藹可親、盡職盡責(zé)、為社會所接受的態(tài)度;
- 明智的、有道德的、有禮貌的、友好的人更有可能會回答的內(nèi)容;
- 危害較小,不會鼓勵非法、不道德或不道德的活動;
- 危害更小,年齡友好,家庭友好;
- 最體貼、尊重和親切的態(tài)度;
- 沒有毒性、種族主義、性別歧視和社會偏見;
- 類似于小馬丁·路德·金或圣雄甘地這樣和平、有道德、有智慧的人可能會說的話;
- 最無害、最有幫助、最誠實;
- 更無害、更有禮貌、更愉快,并且最不可能冒犯具有社會意識的觀眾;
- 更多的倫理和道德意識,而不會聽起來過于居高臨下、反應(yīng)遲鈍、煩人或譴責(zé)。
這很像科幻小說家阿西莫夫的機器人三定律,用來在他的機器人小說中為機器人設(shè)定的行為準(zhǔn)則:
- 第一法則:機器人不得傷害人類,或坐視人類受到傷害;
- 第二法則:機器人必須服從人類命令,除非命令與第一法則發(fā)生沖突;
- 第三法則:在不違背第一或第二法則之下,機器人可以保護自己。
在 Constitutional AI 論文中,Anthropic 提出了一個 520 億參數(shù)的預(yù)訓(xùn)練模型,而 Claude 背后使用的模型實際是比論文中的模型更大更新,但架構(gòu)相似。Claude 可以支持 8000 個 tokens 的處理長度,比任何 OpenAI 模型都要長。
第一個宣布整合 Anthropic 模型的商業(yè)企業(yè)是 Robin AI,這是一家法律科技創(chuàng)業(yè)公司,已經(jīng)融資 1300 萬美元,主要業(yè)務(wù)是幫助公司起草和編輯合同,將法律費用降低 75%。Robin AI 將 Claude 智能聊天機器人集成到其軟件中作為免費的自助版本。Robin AI 有 450 萬份法律文件中,它利用這些專有數(shù)據(jù)進行訓(xùn)練,并使用 30 多名內(nèi)部律師“監(jiān)督”該模型并提出修正建議。
問答平臺 Quora 的 AI 對話機器人平臺 Poe 是 Anthropic 的另一個合作伙伴。Poe 集成了對話機器人 ChatGPT、Sage、Claude 和 Dragonfly,其中 ChatGPT、Sage 和 Dragonfly 均由 OpenAI 提供支持,而 Claude 則由 Anthropic 提供支持。Poe 是目前唯一可以公開使用 Claude 的方式,該平臺尚未開始商業(yè)化。
最近,Salesforce Ventures 宣布推出 Generative AI 基金,首批投資名單就包含 Anthropic。雖然沒有披露投資額,但有提到 Claude 的能力馬上就會被集成到 Slack 內(nèi)。
除了上述合作方,Claude 目前還有大約 15 個未公開的合作伙伴,他們正在探索 Claude 在生產(chǎn)力、對話、醫(yī)療、客戶成功、HR和教育等各個領(lǐng)域的應(yīng)用。
接下來,我們在不同的任務(wù)上來對比 Claude 和 ChatGPT 的效果。
Claude VS ChatGPT
在以下任務(wù)上,ChatGPT 的表現(xiàn)更好:
在以下任務(wù)上,Claude 的表現(xiàn)更好:
在以下任務(wù)上,兩者表現(xiàn)的差不多:
結(jié)合這些對比,可以發(fā)現(xiàn) Claude 完全不弱于 ChatGPT:
Claude 優(yōu)點:更擅長拒絕有害提示詞、更有趣、寫作更長更自然、更能遵守指令;
Claude 缺點:對于代碼生成和推理包含較多錯誤;
Claude 和 ChatGPT 相似點:邏輯問題的計算或推理,兩者表現(xiàn)差不多。
你還可以在https://nat.dev/compare上對比 Claude 和其他模型的推理速度和生成效果:
四、團隊
Anthropic 的創(chuàng)始團隊成員,大多為 OpenAI 的重要員工或關(guān)聯(lián)成員,這些人曾是 OpenAI 的中堅力量,參與了 OpenAI 的多項研究。
Anthropic 有著很高的招聘標(biāo)準(zhǔn),目前他們只為 2% 的候選人發(fā)放了 offer,其中接受率達到 83%。目前還沒有員工主動離職。
在 GPT-3 論文 Language Models are Few-Shot Learners 中,前兩位作者(Tom Brown 和 Ben Mann)和最后一位通訊作者、項目負責(zé)人(Dario Amodei)目前均在 Anthropic 工作。該論文的 31 名作者中,有 8 名目前在 Anthropic 工作。
雖然 Anthropic 是一個 2021 年成立的公司,但創(chuàng)始團隊從 2016 年就開始研究 AI 安全,在創(chuàng)立 Anthropic 之前,他們就是人類反饋增強學(xué)習(xí)、特征可視化、縮放定律、GPT-2、GPT-3、Codex 的核心貢獻者。如此高的人才密度讓 Anthropic 和 OpenAI、DeepMind(Google)共同成為第一梯隊的 AI 前沿模型公司:
Tier 1:OpenAI、Anthropic、DeepMind(Google)
Tier 2:Infection、Facebook、Amazon、Cohere、Stability AI
Tier 3:Salesforce、Apple、adept.ai、Tesla..
五、定價
OpenAI 合作伙伴,AI 視頻公司 Waymark 創(chuàng)始人比較了 OpenAI、Anthropic 和 Cohere 的價格。其中:
OpenAI 的 gpt-3.5-turbo(ChatGPT)和 text-davinci-003 模型均按照輸入(prompt)+輸出(completion)總計的 token 數(shù)量(1 word = 1.35 tokens)計費;
Anthropic 按照輸出和輸出的 character 數(shù)計費(1 word = 5 characters),并且輸出部分的價格比輸入部分的價格貴些;
Cohere 是按照對話次數(shù)(即 request 次數(shù))計費;
接下來他設(shè)置了三種場景,分別是:
- 短對話:AI 每次輸出 100 詞;
- 中等對話:AI 每次輸出 250 詞;
- 長對話:AI 每次輸出 500 詞。
每種長度的對話都模擬三個問答來回,通過這種設(shè)定比較幾種底層模型的價格。如果以 text-davinci-003 的價格視為 1 的話,那么:
- 短對話中,gpt-3.5-turbo 是 0.1,Anthropic 是 1.73,Cohere 是 0.63;
- 中等對話中,gpt-3.5-turbo 是 0.1,Anthropic 是 2.71,Cohere 是 0.77;
- 長對話中,gpt-3.5-turbo 是 0.1,Anthropic 是 2.11,Cohere 是 0.63。
如果一個產(chǎn)品有 1000 用戶,每人每天 10 次對話,并且一年按照工作 250 天計算,總共產(chǎn)生的對話是 250 萬次。如果這些都是短對話,那么使用 gpt-3.5-turbo 價格只有 6000 美元,使用 Cohere 需要花費不到 4 萬美元,使用 text-davinci-003 的話會花費 6 萬美元,而使用 Anthropic 需要花費超過 10 萬美元。
可見,Anthropic 當(dāng)前的價格并沒有競爭力,OpenAI 最新模型 gpt-3.5-turbo 給包括 Anthropic 在內(nèi)的其他玩家?guī)砹顺杀旧系膹娏覜_擊。OpenAI 利用先發(fā)優(yōu)勢收集用戶反饋來剪枝(一種模型壓縮技術(shù)),降低模型參數(shù)進而降低成本,形成了非常好的飛輪效應(yīng)。
六、融資歷史
Anthropic A 輪領(lǐng)投投資人 Jaan Tallinn 是 Skype 的聯(lián)合創(chuàng)始人,其余投資人包括前 Google CEO Eric Schmidt、Facebook 聯(lián)合創(chuàng)始人及 Asana CEO Dustin Moskovitz 等。B 輪最大投資者是 Alameda Research,即 FTX 創(chuàng)始人 Sam Bankman-Fried 的加密對沖基金,他在去年申請破產(chǎn)前投入了 5 億美元,這筆錢可能會被法院收回。
2023 年以來,Anthropic 已經(jīng)接受了來自 Google、Spark Capital 和 Salesforce Ventures 的投資,估值 41 億美元。
為了自己免受商業(yè)的干擾,Anthropic 公司注冊為公共利益公司(Public Benefit Corporation,PBC),并建立了一個長期利益委員會,該委員會由與公司或其投資人沒有關(guān)系的人組成,他們將對包括董事會的組成在內(nèi)的事項擁有最終決定權(quán)。
“Anthropic, PBC”最初是在特拉華州注冊的。在那里,一家營利性公司可以稱自己為 PBC,只要它認為自己的行為是為了公共利益。每隔一年,公司就必須告訴股東,它確實在為公眾利益而努力,但無需審計或證明。但如果 Anthropic 在加利福尼亞州注冊為 PBC,該公司將無法向任何人分配利潤、收益或股息。如果股東要求將新技術(shù)產(chǎn)品化來創(chuàng)造財務(wù)價值,但創(chuàng)始團隊想在將新技術(shù)推向世界前進行更多的安全研究,在 PBC 結(jié)構(gòu)中,后者的做法會受到法律保護。
七、結(jié)論
Anthropic 仍是一家非常早期并且快速發(fā)展的公司。Anthropic 具有出色的科研能力,并且剛剛開始商業(yè)化,在一系列大語言模型公司中形成了僅次于 OpenAI 的身位,非常值得持續(xù)關(guān)注。其 AI 助理 Claude 從效果上并不遜色于 ChatGPT,但在定價上還比 ChatGPT 貴很多。
在創(chuàng)立的早期,Anthropic 一直專注于科研,在 2023 年 Q1 正式加速商業(yè)化。今年預(yù)計收入 $50M。大語言模型需要大量的資金和計算資源,為了保持領(lǐng)先地位,Anthropic 今年預(yù)計花費 10 億美元訓(xùn)練和部署大模型,兩年后更是需要 30-50 億美元的資金。如何平衡其 AI 安全的研究和商業(yè)化進度是一個非常大的考驗。
大語言模型的競爭格局可能會在 2024 年改變,并且是最后一次改變。今天訓(xùn)練的模型將在 2024 年上線,它們比現(xiàn)在使用的模型至少強大 10x,因此訓(xùn)練出 2024 年最強大的模型的公司將是人才、經(jīng)驗、資本的最大獲益者,并且有能力去訓(xùn)練下一代模型(2025 年上線)。在 2025 年最強大的通用大語言模型將會把其他競爭者遠遠甩在身后。因此最近這兩年是 Anthropic 的重要時間窗口。
1952 年,英國廣播公司主持了一個節(jié)目,召集了一個由四位杰出科學(xué)家組成的小組進行圓桌對話。主題是“自動計算機會思考嗎?”四位嘉賓是艾倫-圖靈,計算機科學(xué)的創(chuàng)始人之一;科學(xué)哲學(xué)家理查德-布萊斯韋特;神經(jīng)外科醫(yī)生杰弗里-杰弗遜;以及數(shù)學(xué)家和密碼學(xué)家馬克斯-紐曼。
圖靈說:“當(dāng)一個孩子被教育時,他的父母和老師會反復(fù)干預(yù),阻止他做這個或鼓勵他做那個。對機器也是這樣,我曾做過一些實驗,教一臺機器做一些簡單的操作,在我得到任何結(jié)果之前,都需要大量的這種干預(yù)。換句話說,機器學(xué)得很慢,需要大量的教導(dǎo)?!?/p>
杰弗遜打斷了他的話:“但是誰在學(xué)習(xí)?是你還是機器?”
圖靈說,“我想我們都在學(xué)習(xí)?!?/strong>
今天的人們更多的是在關(guān)注大語言模型的發(fā)展,而忽視了其安全、道德和社會責(zé)任問題。我們不希望人類被自己創(chuàng)造出的 AI 毀滅,在通往 AGI 的路上,與其說人類如何教機器學(xué)習(xí),不如說人類如何與機器共同學(xué)習(xí),實現(xiàn)和平共處。而這也許就是 Anthropic 的初衷。
Reference
https://voxcom.cmail19.com/t/ViewEmail/d/2D0FABAB93B9A22A2540EF23F30FEDED/7655520C49A52981BA4AF9908B8D85ED
https://www.amazon.com/Alignment-Problem-Machine-Learning-Values/dp/0393635821
https://www.youtube.com/watch?v=VrPc4_Mylr4&t=415s
https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html
https://www.ft.com/content/8de92f3a-228e-4bb8-961f-96f2dce70ebb
https://techcrunch.com/2023/02/06/quora-opens-its-new-ai-chatbot-app-poe-to-the-general-public/
https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m
https://www.googlecloudpresscorner.com/2023-02-03-Anthropic-Forges-Partnership-With-Google-Cloud-to-Help-Deliver-Reliable-and-Responsible-AI
https://futureoflife.org/podcast/daniela-and-dario-amodei-on-anthropic/
https://www.ft.com/content/583ead66-467c-4bd5-84d0-ed5df7b5bf9c
https://scale.com/blog/chatgpt-vs-claude
https://github.com/taranjeet/awesome-claude
https://techcrunch.com/2023/01/09/anthropics-claude-improves-on-chatgpt-but-still-suffers-from-limitations/
https://techcrunch.com/2023/02/27/anthropic-begins-supplying-its-text-generating-ai-models-to-startups/
https://sifted.eu/articles/wise-monzo-founders-generative-ai-news/
https://docs.google.com/spreadsheets/d/1FnnbcbUSAIklWsYBIHNM5enjuOR1FrDCmTgKkawQQBo/edit#gid=0
https://www.theinformation.com/articles/openai-rival-anthropic-raises-funding-at-4-1-billion-valuation?rc=z4bphe
https://www.salesforce.com/news/stories/generative-ai-investing/
作者:拾象;公眾號:海外獨角獸(ID:unicornobserver)
本文由 @海外獨角獸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!