分析100萬條人與AI對話的背后:人類沒有看一條對話|甲子光年

0 評論 573 瀏覽 1 收藏 18 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

文章揭示了用戶使用AI的主要場景,包括網(wǎng)頁和移動應用開發(fā)、內容創(chuàng)作、學術研究等,并探討了不同語言用戶的獨特使用習慣。此外,文章還討論了Anthropic如何重視AI的安全性和可解釋性,以及這些因素如何影響其在AI領域的競爭地位。

一個可深入了解真實世界AI使用情況并保護用戶隱私的系統(tǒng)。

你會用大模型做什么?

美國AI獨角獸企業(yè)Anthropic近期從用戶與Claude的對話中隨機選取了100萬條,進行分析和總結后發(fā)現(xiàn),用戶在Claude.ai上的主要使用場景排在第一位的是網(wǎng)頁和移動應用開發(fā),占比為10.4%。

Anthropic進一步解釋,軟件開發(fā)人員主要利用Claude執(zhí)行調試代碼、解釋Git操作及概念等任務。

而在用戶與Claude進行的最常見類型的對話中,排在2~5位的是:內容創(chuàng)作與溝通,9.2%;學術研究與寫作,7.2%;教育與職業(yè)發(fā)展,7.1%;高級AI/ML應用,6.0%。

用戶與Claude進行的最常見類型的對話,涵蓋所有語言,圖片來源:Anthropic

Anthropic的人類分析師還利用工具識別出了數(shù)千個較小的對話聚類,其中一些用途可能出人意料,包括:夢境解析、足球比賽分析、災害應急準備、填字游戲提示、龍與地下城游戲以及統(tǒng)計“strawberry”一詞中的字母“r”數(shù)量。

另外,不同語言的用戶使用Claude的差異也很明顯。其中,中文用戶使用Claude撰寫犯罪、驚悚和懸疑小說的頻率是基礎值的4.4倍;研究并開發(fā)應對人口老齡化及老年護理的解決方案的頻率是基礎值的1.9倍;要求Claude提供與太空探索主題相關的信息和幫助的頻率是基礎值的1.6倍。

需要注意的是,中國大陸地區(qū)并不在Anthropic推出的Claude系列AI大模型的服務范圍內,因此中文的數(shù)據(jù)并不能代表全球華語地區(qū)的使用情況。

而西班牙語用戶更多要求Claude解釋和分析經(jīng)濟理論及其實際應用,日語用戶則更多要求Claude創(chuàng)作與分析動漫及漫畫內容和相關項目。

三種選定語言中更頻繁出現(xiàn)的對話主題,圖片來源:Anthropic

從技術角度來說,分析并總結用戶與AI模型的對話情況并非難事,阻礙研究人員明確理解用戶使用AI模型方式的一個關鍵因素是——隱私。

在Anthropic,Claude模型默認不使用用戶對話進行訓練,并且其非常重視保護用戶數(shù)據(jù)。那么,如何在不損害用戶隱私的情況下,觀察和研究AI系統(tǒng)的使用情況呢?

上文提到的這些研究的背后離不開Clio(Claude Insights and Observations),一個可深入了解真實世界AI使用情況并保護用戶隱私的系統(tǒng)。

Clio在避免了人類分析師看到用戶原始對話的同時,做到了對AI使用情況的有效分析。

Clio,圖片來源:Anthropic

一、人類分析師沒有看一條對話

“我們使用Claude來分析人們與Claude進行的對話,但我們當中沒有人實際閱讀了這些對話,事實上也沒有人需要查看這些數(shù)據(jù)?!盇nthropic社會影響團隊研究科學家Deep Ganguli說。

Clio的核心理念是用Claude對這些對話進行總結、聚類和分析,確保分析結果在給到分析師之前,已經(jīng)移除所有可識別的、涉及個人隱私的細節(jié)。

Clio的分析步驟總結,圖片來源:Anthropic

以一組虛構的對話分析為例,Clio會先隨機抽取用戶與Claude的對話(Conversations):

用戶:我該如何系鞋帶?我27歲了,有點……

助手:當然!我們來討論如何……

在這個虛構對話中,有用戶的隱私信息——27歲,這是不能給分析師看到的,于是Clio就需要提取這段對話的特征(Facets),形成隱私化的摘要和提取的元數(shù)據(jù):

如何系鞋帶

英語

5輪對話

這些經(jīng)過總結內容將會與其他相似的內容進行語義聚類(Semantic clustering),比如“系鞋帶”和“扎辮子”會分到同一組。

再通過聚類描述(Cluster description),讓每一組聚類都得到一個描述性標題和總結,比如“系鞋帶”和“扎辮子”這一組就叫做“打各種各樣的結”。

由此就形成了初始集群(Initial clusters)。

接下來,初始集群會經(jīng)過審核并遞歸分組形成分層集群(Hierarchical clusters),“打各種各樣的結”會被歸類到“日常生活技能”中,直到這一步,分析師才能看到相關內容。

簡單來說,Clio多階段處理過程包括:

提取特征(Extracting facets):從每次對話中提取多個“特征”(如主題、對話輪次、語言等元數(shù)據(jù))。

語義聚類(Semantic clustering):根據(jù)主題或一般話題將類似對話自動歸類。

聚類描述(Cluster description):為每個聚類提供描述性標題和摘要,捕捉共同主題并排除私人信息。

建立層級(Building hierarchies):將聚類組織成多層次結構,便于探索,供分析師使用交互式界面分析模式。

四個步驟完全由Claude驅動,而不是由人類分析師驅動。這是Clio隱私設計的一部分,具有多層“防御深度”。Clio還設定了獨特用戶或對話的最小閾值,以確保低頻主題不會被意外暴露。作為最后的檢查,Claude會在向人類用戶展示之前驗證聚類概要是否包含任何過于具體或識別性的信息。

“在我們寫第一行代碼之前,我們就在思考隱私問題,”Deep Ganguli介紹,“最根本的矛盾在于,我們想了解用戶如何使用我們的系統(tǒng),但我們也確實想尊重用戶的隱私。”

高度保護隱私,意味著洞察力會變低,而低隱私保護雖然會帶來更高的洞察力,但在倫理上就可能存在問題。

現(xiàn)在,Clio在兩者之間做到了很好的平衡。

二、自下而上的自動分析工具

Anthropic分析這100萬條對話,除了要了解用戶使用習慣,更重要的是為了改進AI模型的安全措施。

想想看,AI模型提供者在部署前測試中投入了大量精力,并使用信任與安全系統(tǒng)來防止濫用。但是,語言模型能做的規(guī)模和多樣性之大,使得理解它們的用途非常困難,更不用說進行全面的安全監(jiān)控了。

而Clio是一個自下而上的自動分析工具,這與傳統(tǒng)自上而下的安全測試方法截然不同。

紅隊測試(Red Teaming)就是一種傳統(tǒng)的自上而下的安全測試方法,通常用于評估系統(tǒng)、組織或模型的漏洞和安全性。在人工智能領域,紅隊測試的目的是模擬潛在的攻擊者行為,通過刻意尋找模型的弱點或錯誤來提升其魯棒性和安全性。

傳統(tǒng)自上而下的安全測試方法需要事先明確知道要查找的安全問題或威脅。而Clio可以通過分析大量數(shù)據(jù)自然地發(fā)現(xiàn)潛在的問題,而不是基于預設的假設進行檢查,能更加靈活、全面地捕捉到未預見的問題。

在識別濫用信息方面,Clio不僅停留在監(jiān)測網(wǎng)絡上活動時關注的特定區(qū)域,它也在防御潛在威脅。

Clio能夠檢測到協(xié)同發(fā)送垃圾郵件的行為或其他可能違反道德規(guī)范的活動。在2024年美國大選前,Clio被用來監(jiān)控與政治相關的討論和互動,尤其針對濫用、謀取不正當利益的內容。

除了識別安全漏洞外,Clio對現(xiàn)有分類器(classifier)的準確性也做了一定提升。以前的分類器會因為內容的性質而將某些良性交互(如求職查詢)誤判為有害信息。通過Clio的細致檢查,這類誤判大幅減少。

事實上,Antropic不僅訓練語言模型拒絕有害請求,還啟用有針對性的信任與安全執(zhí)行系統(tǒng)檢測、阻止并處理違反使用政策的活動。

如今,Clio補充了這項工作,幫助Antropic了解如何改進和加強這些系統(tǒng)。

各個對話群集如何被信任與安全分類器系統(tǒng)評估的關注度,圖片來源:Anthropic

盡管Clio在隱私評估中表現(xiàn)出色,但就像任何現(xiàn)實世界中的隱私系統(tǒng)一樣,可能存在系統(tǒng)未能捕捉到某些類型私人信息的情況。為了降低這種潛在風險,Anthropic會定期對Clio的隱私保護和評估進行審計,以確保其防護措施按預期運行。隨著時間的推移,Anthropic還計劃在Clio中使用最新的Claude模型,以便不斷改進這些防護措施的性能。

三、為何Anthropic如此重視安全

Anthropic成立于2021年,由達里奧·阿莫迪(Dario Amodei)和他的妹妹丹妮拉·阿莫迪(Daniela Amodei)共同創(chuàng)立。兩人此前均在OpenAI擔任重要職務,因對OpenAI發(fā)展方向產生分歧而離職,決定創(chuàng)辦一家與OpenAI有不同價值觀的AI公司。

在創(chuàng)立Anthropic之初,兄妹二人希望專注于人工智能的安全性和可解釋性,致力于構建可靠、可控的AI系統(tǒng)。他們的公司名稱“Anthropic”意為“與人類相關的”,體現(xiàn)了他們希望開發(fā)對人類友好的AI技術的愿景。

Anthropic宣傳海報,圖片來源:Anthropic

2021年,正是新冠疫情期間,Anthropic初創(chuàng)團隊七個人經(jīng)常戴著口罩,在舊金山的戶外開會,他們認為這是一個“有趣的初創(chuàng)時期”。阿莫迪透露,2022年夏天他們就開發(fā)出了一款AI聊天機器人,但是他們選擇繼續(xù)進行安全測試,而不是立即發(fā)布產品。

2023年11月,OpenAI發(fā)布ChatGPT,拉開了這次AI浪潮的序幕。四個月后,Anthropic才推出了他們的AI大模型Claude。

Anthropic被視為OpenAI最有力的競爭對手。

據(jù)The Information報道,今年秋天時,OpenAI領導層就對Anthropic在自動編程領域的表現(xiàn)感到惶恐。其內部測試顯示,Anthropic的模型已經(jīng)超越了OpenAI。要知道,AI編程ChatGPT吸引數(shù)百萬用戶訂閱的核心優(yōu)勢之一。

今年大火的初創(chuàng)公司Cursor也將默認編程助手從OpenAI的GPT系列更換為Anthropic的Claude系列。Cursor聯(lián)合創(chuàng)始人阿曼·桑格(Aman Sanger)在今年10月的播客中表示,Anthropic的最新Claude 3.5 Sonnet模型以其“優(yōu)秀需求理解力”成為編程工具的首選。

現(xiàn)在再看Anthropic公布的用戶在Claude.ai上的使用場景的第一名——網(wǎng)頁和移動應用開發(fā),也就不足為奇了。

這也為Anthropic帶來不錯的商業(yè)化成果,Anthropic銷售及合作伙伴關系總監(jiān)凱特·詹森(Kate Jensen)最近透露,近三個月使用Anthropic模型做軟件開發(fā)和代碼生成的客戶的年化收入增長了10倍。

但也有評論認為,Anthropic面臨的限制因素是對安全性的極端重視,這也影響了其AI技術的發(fā)展速度。

AI安全和AI發(fā)展之間的關系在去年就引發(fā)了極大的爭議,這也是去年底OpenAI宮斗事件的誘因之一,并在今年產生了影響。

今年5月,OpenAI超級對齊團隊兩位負責人接連離職。其中包括OpenAI聯(lián)合創(chuàng)始人、首席科學家伊利亞·蘇茨克維爾(Ilya Sutskever),以及該團隊的負責人簡·雷克(Jan Leike)。今年11月,OpenAI研究副總裁(安全)翁荔(Lilian Weng)也宣布離職。

「甲子光年」據(jù)公開資料不完全統(tǒng)計,今年OpenAI安全團隊離職的人員已超過10人。

前兩天,OpenAI發(fā)布了o3模型。對于其安全性,OpenAI CEO薩姆·奧爾特曼(Sam Altman)認為,制定測試框架是十分必要的,“這種框架應明確重點監(jiān)控和緩解的風險,并在模型發(fā)布前完成測試,類似于新藥或新飛機的認證?!?/p>

圖片來源:Sam Altman的X賬號

關于AI安全的討論并沒有一個確切的答案,但一個企業(yè)的選擇往往反映著其團隊的價值觀。

Anthropic社會影響團隊研究員Miles McCain在Clio發(fā)布后就表示,只有深入了解我們的系統(tǒng),才能有效執(zhí)行政策,減輕模型可能帶來的危害,理解模型對用戶情感的影響。

我發(fā)現(xiàn),在Clio的集群中,人們在生活的許多方面與Claude建立了非常深厚的聯(lián)系。他們將Claude視為教練、情感伙伴,甚至是在自己面臨極具挑戰(zhàn)性的問題時那個提供建議的人。我們有責任了解人們在這些脆弱時刻與Claude的對話方式,確保Claude能夠符合他們的期望,并成為一個可靠的伙伴?!盡iles McCain說。

作者|蘇霍伊
編輯|王博

本文由人人都是產品經(jīng)理作者【甲子光年】,微信公眾號:【甲子光年】,原創(chuàng)/授權 發(fā)布于人人都是產品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
16368人已学习12篇文章
本专题的文章分享了数据的分析方法。
专题
12694人已学习14篇文章
在这个大数据时代,数据对于企业的重要性越来越明显,因此不少企业将数据作为推动一款产品的重要前提。本专题的文章分享了如何用数据去驱动决策。
专题
15720人已学习7篇文章
AI在现实中的应用有很多,AI应用实例有哪些?AI的实现原理是什么你知道吗?本专题的文章分享了AI应用实例分析
专题
19687人已学习13篇文章
如何通过广告模式来进行商业化流量变现?本专题的文章提供了广告变现的思路。
专题
12144人已学习19篇文章
机器人行业是一个新兴的行业,国内做的公司不多。本专题的文章对整个机器人赛道进行完整的梳理,在输入输出的同时,体验时代带给我们的冲击感。
专题
12701人已学习13篇文章
产品经理在日常工作中,除了要跟进和把控产品的整体流程以外,也要对产品后续的销售策略进行规划;销售策略的规划可以让产品经理对于用户的场景以及体验等更加熟悉。本专题的文章分享了产品的销售策略。