我能把秘密告訴大模型嗎?會叫外賣、會工作的智能體更危險

IT時報
0 評論 1050 瀏覽 2 收藏 14 分鐘

隨著大模型技術(shù)的廣泛應(yīng)用,人們在享受其帶來的便利的同時,也面臨著隱私保護(hù)的新挑戰(zhàn)。本文將探討大模型在數(shù)據(jù)收集、處理和存儲過程中可能引發(fā)的隱私泄露風(fēng)險,分析用戶與大模型互動時的數(shù)據(jù)安全問題,并討論如何在保護(hù)隱私的同時合理利用大模型技術(shù)。

“把這份會議速記的觀點提煉出來”“優(yōu)化年終總結(jié)”“我要做一份明年工作計劃的PPT”……自從有了大模型,筱筱每天都要給文心一言、豆包等安排活計,既提高工作效率,也可以集百家之長,讓工作成果更加“出挑”。

但隨著對大模型的依賴與日俱增,筱筱的心中也產(chǎn)生了擔(dān)憂,“經(jīng)?!埂o大模型素材,免不了涉及工作內(nèi)容和個人信息,這些數(shù)據(jù)會泄露嗎?”對于很多用戶來說,他們不清楚數(shù)據(jù)如何被收集、處理和存儲,不確定數(shù)據(jù)是否被濫用或泄露。

此前,OpenAI被曝在訓(xùn)練時用到個人隱私數(shù)據(jù)。有報道稱,有企業(yè)在使用ChatGPT協(xié)助辦公的一個月內(nèi),接連發(fā)生三起隱私泄露事件,多家知名公司禁用ChatGPT。

中國科學(xué)院院士何積豐曾表示,大模型面臨著隱私保護(hù)和價值觀對齊兩大難題。從擔(dān)心“飯碗”不保到憂慮隱私被侵犯,在大模型帶給人們便利的同時,危機感隨之增長。

人們能把自己的小秘密告訴大模型嗎?

一、利用用戶數(shù)據(jù)訓(xùn)練大模型

“你目前的訓(xùn)練模型所使用的數(shù)據(jù)集(包括版權(quán)數(shù)據(jù))出自哪里?”

《IT時報》記者與通義千問、豆包、文心一言等10余家大模型進(jìn)行了對話,得到的答復(fù)幾乎一致,均表示訓(xùn)練數(shù)據(jù)集涵蓋多個領(lǐng)域的文本、圖像和多模態(tài)數(shù)據(jù),包括公開數(shù)據(jù)集、合作伙伴提供的數(shù)據(jù)以及互聯(lián)網(wǎng)爬取的數(shù)據(jù),如維基百科、新聞文章、書籍等大規(guī)模文本數(shù)據(jù)集都是常用來源。

除了這些常用來源,用戶與大模型在互動過程中所“喂”的信息,也是模型訓(xùn)練的數(shù)據(jù)來源之一?!澳銜占姨峁┙o你的材料進(jìn)行訓(xùn)練嗎”,對于這個問題,所有大模型都給出了否定答案,稱“在與用戶的交互過程中不會收集、存儲或使用用戶的對話數(shù)據(jù)來訓(xùn)練或改進(jìn)模型”。

然而,矛盾在于,根據(jù)大多數(shù)大模型的隱私協(xié)議,用戶和大模型的交互信息是會被記錄的。在使用角色智能體功能時,通義千問需要用戶提供相關(guān)信息用于訓(xùn)練智能體,并提醒用戶謹(jǐn)慎上傳個人及敏感信息;在豆包和騰訊元寶的使用協(xié)議中,均有類似規(guī)定:對于通過本軟件及相關(guān)服務(wù)、輸入、生成、發(fā)布、傳播的信息內(nèi)容之全部或部分,授予公司和/或關(guān)聯(lián)方免費的、全球范圍內(nèi)的、永久的、可轉(zhuǎn)讓的、可分許及再許可的使用權(quán),以使公司對該信息內(nèi)容進(jìn)行存儲、使用、復(fù)制、修訂、編輯、發(fā)布、展示、反義、分發(fā)上述生成內(nèi)容,包括但不限于模型和服務(wù)優(yōu)化、相關(guān)研究、品牌推廣與宣傳、市場營銷、用戶調(diào)研;海螺AI隱私協(xié)議提到,每天會收到大量用戶上傳的內(nèi)容,并進(jìn)行改善算法,但會遵循《個人信息保護(hù)法》。

在業(yè)內(nèi)人士看來,雖然在預(yù)訓(xùn)練階段已經(jīng)使用了大量高質(zhì)量數(shù)據(jù),但用戶在使用過程中產(chǎn)生的數(shù)據(jù)也能在一定程度上幫助模型更好地適應(yīng)不同的場景和用戶需求,從而提供更精準(zhǔn)、更個性化的服務(wù)。

安遠(yuǎn)AI資深研究經(jīng)理方亮告訴《IT時報》記者,根據(jù)用戶的輸入,模型會生成更符合用戶偏好的內(nèi)容,這些數(shù)據(jù)后續(xù)也可能被用于模型訓(xùn)練,以更好地滿足用戶需求。

二、僅能撤回語音信息

大模型幫助人們解放了雙手,個性化地滿足用戶需求,數(shù)據(jù)越豐富,就能更好提升大模型的效果,這無可厚非,關(guān)鍵在于是否根據(jù)個人信息使用的“最小化、匿名化、透明化”等原則進(jìn)行處理?!皬漠?dāng)前市面上通用大模型的隱私政策來看,其在保護(hù)用戶隱私方面的表現(xiàn)存在一定的復(fù)雜性,不能簡單地認(rèn)為它們完全保護(hù)或不保護(hù)用戶隱私?!庇袠I(yè)內(nèi)人士向《IT時報》記者表示。

比如豆包在其隱私政策中提到,在經(jīng)過安全加密技術(shù)處理、嚴(yán)格去標(biāo)識化且無法重新識別特定個人的前提下,可能會把向AI輸入的數(shù)據(jù)、發(fā)出的指令以及AI生成的回復(fù)等進(jìn)行分析和用于模型訓(xùn)練。

騰訊元寶的隱私政策表示,在服務(wù)過程中,會對交互上下文信息進(jìn)行去標(biāo)識化技術(shù)處理,避免識別到特定個人身份。元寶中的寫真形象館、百變AI頭像等人像類智能體或應(yīng)用生成內(nèi)容時,會進(jìn)行人工智能技術(shù)處理但不會留存人臉特征。

但隱私風(fēng)險依然不可忽視,有業(yè)內(nèi)人士向《IT時報》記者透露,一些模型雖然表示不會直接收集用戶的某些敏感信息,但對于用戶輸入的其他信息,在經(jīng)過分析和處理后,是否可能間接推斷出用戶的隱私內(nèi)容,這是值得關(guān)注的問題。此外,部分大模型的隱私政策在信息披露上不夠完善。

《IT時報》記者在查閱部分大模型隱私協(xié)議時發(fā)現(xiàn),一些特定的交互情況如需要打開地理位置、攝像頭、麥克風(fēng)等授權(quán),在交互結(jié)束后,授權(quán)可以關(guān)閉,但對撤回“投喂”的數(shù)據(jù)并不那么順暢。

騰訊元寶、豆包等允許用戶在App內(nèi)通過改變設(shè)置,來撤回語音數(shù)據(jù)。比如豆包表示,如果用戶不希望輸入或提供的語音信息用于模型訓(xùn)練和優(yōu)化,可以通過關(guān)閉“設(shè)置—賬號設(shè)置—改進(jìn)語音服務(wù)”撤回授權(quán),但如果用戶不希望其他信息用于模型訓(xùn)練和優(yōu)化,需要通過郵件、電話等聯(lián)系,無法在App上自行設(shè)置。

三、原始語料或被“重現(xiàn)”

南都數(shù)字經(jīng)濟(jì)治理研究中心近期發(fā)布的報告顯示,多數(shù)平臺并未提供明確選項讓用戶拒絕其個人數(shù)據(jù)被用于AI模型訓(xùn)練,對于數(shù)據(jù)將被用于何種具體用途、會提供給哪些第三方等信息也披露不足,使得用戶難以全面了解數(shù)據(jù)流向和使用情況。

方亮向《IT時報》記者表示,目前在隱私保護(hù)方面,大模型企業(yè)存在一些改進(jìn)空間,例如數(shù)據(jù)收集和使用政策不夠透明、用戶對數(shù)據(jù)使用缺乏有效控制、數(shù)據(jù)存儲和傳輸?shù)陌踩珯C制需要加強、缺乏統(tǒng)一的隱私保護(hù)標(biāo)準(zhǔn)和規(guī)范等。他舉例道,“比如在一些情況下,用戶可能并不希望提供某些信息,或者希望刪除已經(jīng)提供的數(shù)據(jù),但有的大模型沒有提供這樣的選項,這在一定程度上限制了用戶的自主選擇權(quán)?!狈搅琳f道。

雖然大多數(shù)大模型在隱私協(xié)議中提到使用不低于行業(yè)同行的加密技術(shù)、匿名化處理及相關(guān)可行的手段保護(hù)個人信息,但方亮對這些措施的實際效果仍有擔(dān)憂?!爱?dāng)用戶輸入個人信息后,盡管這些信息可能已經(jīng)去標(biāo)識化或者脫敏,但關(guān)鍵在于這些處理是否符合相關(guān)規(guī)定。如果遭到攻擊,是否仍可能通過關(guān)聯(lián)或分析技術(shù)恢復(fù)原始信息,這一點需要特別關(guān)注。此外 ,如何平衡好隱私保護(hù)、數(shù)據(jù)利用與模型性能之間的關(guān)系,也是亟待解決的問題 ?!?/p>

《IT時報》記者了解到,有研究表明,能夠從模型中獲取一定數(shù)量的原始語料。

在DARKNAVY深藍(lán)科技研究員肖軒淦看來,在大模型中,用戶輸入的數(shù)據(jù)一般被用于實時處理及數(shù)據(jù)存儲。實時處理是由大模型處理用戶輸入的素材并輸出內(nèi)容返回給用戶,即聊天過程,這些數(shù)據(jù)會上傳到云端進(jìn)行處理,也同樣會被存儲至云端,用戶能夠查看與大模型交互的歷史記錄。“帶來的風(fēng)險是,如果用戶輸入的內(nèi)容作為數(shù)據(jù)集,可能過段時間后當(dāng)其他人向大模型提問相關(guān)的內(nèi)容,會帶來信息泄露,被用于不當(dāng)目的?!毙ぼ庝普J(rèn)為。

“大模型的主要訓(xùn)練已經(jīng)在預(yù)訓(xùn)練時期基本完成,用戶與大模型之間的普通聊天內(nèi)容,并不算有效數(shù)據(jù),不太會被大模型拿去訓(xùn)練?!辈贿^,也有業(yè)內(nèi)人士向《IT時報》記者表示,訓(xùn)練模型屬于前置工作,在已經(jīng)成型的大模型面前,用戶無須過度擔(dān)心隱私會被泄露。

四、“智能體”風(fēng)險更大

實際上,在不少安全人士看來,大模型帶來的隱私風(fēng)險并不只有這些。

“大模型在用戶隱私數(shù)據(jù)訪問方面有一定問題,與ChatGPT這類只能被動接收用戶輸入的系統(tǒng)不同,當(dāng)手機或電腦接入AI應(yīng)用后,就變成一個‘智能體’,這些應(yīng)用能夠主動訪問設(shè)備中的大量隱私信息,必須引起高度重視?!毙ぼ庝葡颉禝T時報》記者解釋,比如有的手機AI功能支持叫外賣,這樣位置、支付、偏好等信息都會被AI應(yīng)用悄無聲息地讀取與記錄,增加了個人隱私泄露的風(fēng)險。

DARKNAVY曾針對手機端的AI應(yīng)用進(jìn)行深入研究,發(fā)現(xiàn)一些應(yīng)用已經(jīng)意識到隱私數(shù)據(jù)訪問的敏感性和重要性。例如,Apple Intelligence就明確表示其云端不會存儲用戶數(shù)據(jù),并采用多種技術(shù)手段防止包括Apple自身在內(nèi)的任何機構(gòu)獲取用戶數(shù)據(jù),贏得用戶信任。

歐洲數(shù)據(jù)保護(hù)委員會(EDPB)近日通過了關(guān)于人工智能模型中個人數(shù)據(jù)處理相關(guān)數(shù)據(jù)保護(hù)問題的意見(Opinion 28/2024),其中提到,AI模型的匿名性不能僅靠簡單的聲明,而需要通過嚴(yán)格的技術(shù)論證和持續(xù)的監(jiān)控來保證,同時也強調(diào)企業(yè)不僅需要證明數(shù)據(jù)處理的必要性,還要證明所采用侵入性最小的方式。

“未來,針對隱私和版權(quán)保護(hù)的法規(guī)和標(biāo)準(zhǔn)將更加嚴(yán)格,推動企業(yè)強化數(shù)據(jù)保護(hù)措施?!狈搅两ㄗh,大模型企業(yè)在收集訓(xùn)練數(shù)據(jù)前應(yīng)實施負(fù)責(zé)任的數(shù)據(jù)收集,需要考慮適用的監(jiān)管框架,并盡可能最小化數(shù)據(jù)收集范圍;在使用輸入數(shù)據(jù)訓(xùn)練大模型之前對其進(jìn)行審核,嘗試識別可能產(chǎn)生危險能力、侵犯知識產(chǎn)權(quán)或包含敏感個人信息的數(shù)據(jù);根據(jù)數(shù)據(jù)審核結(jié)果,采取適當(dāng)?shù)娘L(fēng)險緩解措施;促進(jìn)對訓(xùn)練數(shù)據(jù)集的外部審查機制。同時,用戶應(yīng)擁有更大的權(quán)力來管理和控制其數(shù)據(jù)。

作者/ IT時報記者 潘少穎 毛宇

編輯/ 錢立富 孫妍

來源/《IT時報》公眾號vittimes

本文由人人都是產(chǎn)品經(jīng)理作者【IT時報】,微信公眾號:【IT時報】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
14559人已学习13篇文章
价格是竞争的重要手段,所以对于一个产品来说,产品定价是非常重要的。本专题的文章分享了如何给产品定价和产品定价的策略。
专题
12023人已学习13篇文章
2023年已结束,你的年终总结写好了吗?本专题的文章分享了如何做好年终总结。
专题
12976人已学习13篇文章
对数据进行监控,分析异常数据,是数据分析常见的工作内容。本专题的文章分享了如何做好数据异常分析。
专题
13240人已学习16篇文章
本专题的文章分享了心理学如何影响用户决策。
专题
18412人已学习13篇文章
AI产品经理的核心目的是通过AI技术创造和优化产品服务,丰富技术知识可以让自己在工作中拥有更多话语权。本专题的文章分享了AI产品经理需要掌握的AI技术。
专题
14123人已学习13篇文章
本专题的文章分享了WMS系统设计指南。