日本护士高潮叫床声,被窝网国产在线视频色

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

我能把秘密告訴大模型嗎？會叫外賣、會工作的智能體更危險

IT時報

2025-01-08

0 評論 1050 瀏覽 2 收藏

隨著大模型技術(shù)的廣泛應(yīng)用，人們在享受其帶來的便利的同時，也面臨著隱私保護(hù)的新挑戰(zhàn)。本文將探討大模型在數(shù)據(jù)收集、處理和存儲過程中可能引發(fā)的隱私泄露風(fēng)險，分析用戶與大模型互動時的數(shù)據(jù)安全問題，并討論如何在保護(hù)隱私的同時合理利用大模型技術(shù)。

“把這份會議速記的觀點提煉出來”“優(yōu)化年終總結(jié)”“我要做一份明年工作計劃的PPT”……自從有了大模型，筱筱每天都要給文心一言、豆包等安排活計，既提高工作效率，也可以集百家之長，讓工作成果更加“出挑”。

但隨著對大模型的依賴與日俱增，筱筱的心中也產(chǎn)生了擔(dān)憂，“經(jīng)?！埂o大模型素材，免不了涉及工作內(nèi)容和個人信息，這些數(shù)據(jù)會泄露嗎？”對于很多用戶來說，他們不清楚數(shù)據(jù)如何被收集、處理和存儲，不確定數(shù)據(jù)是否被濫用或泄露。

此前，OpenAI被曝在訓(xùn)練時用到個人隱私數(shù)據(jù)。有報道稱，有企業(yè)在使用ChatGPT協(xié)助辦公的一個月內(nèi)，接連發(fā)生三起隱私泄露事件，多家知名公司禁用ChatGPT。

中國科學(xué)院院士何積豐曾表示，大模型面臨著隱私保護(hù)和價值觀對齊兩大難題。從擔(dān)心“飯碗”不保到憂慮隱私被侵犯，在大模型帶給人們便利的同時，危機感隨之增長。

人們能把自己的小秘密告訴大模型嗎？

一、利用用戶數(shù)據(jù)訓(xùn)練大模型

“你目前的訓(xùn)練模型所使用的數(shù)據(jù)集（包括版權(quán)數(shù)據(jù)）出自哪里？”

《IT時報》記者與通義千問、豆包、文心一言等10余家大模型進(jìn)行了對話，得到的答復(fù)幾乎一致，均表示訓(xùn)練數(shù)據(jù)集涵蓋多個領(lǐng)域的文本、圖像和多模態(tài)數(shù)據(jù)，包括公開數(shù)據(jù)集、合作伙伴提供的數(shù)據(jù)以及互聯(lián)網(wǎng)爬取的數(shù)據(jù)，如維基百科、新聞文章、書籍等大規(guī)模文本數(shù)據(jù)集都是常用來源。

除了這些常用來源，用戶與大模型在互動過程中所“喂”的信息，也是模型訓(xùn)練的數(shù)據(jù)來源之一?！澳銜占姨峁┙o你的材料進(jìn)行訓(xùn)練嗎”，對于這個問題，所有大模型都給出了否定答案，稱“在與用戶的交互過程中不會收集、存儲或使用用戶的對話數(shù)據(jù)來訓(xùn)練或改進(jìn)模型”。

然而，矛盾在于，根據(jù)大多數(shù)大模型的隱私協(xié)議，用戶和大模型的交互信息是會被記錄的。在使用角色智能體功能時，通義千問需要用戶提供相關(guān)信息用于訓(xùn)練智能體，并提醒用戶謹(jǐn)慎上傳個人及敏感信息；在豆包和騰訊元寶的使用協(xié)議中，均有類似規(guī)定：對于通過本軟件及相關(guān)服務(wù)、輸入、生成、發(fā)布、傳播的信息內(nèi)容之全部或部分，授予公司和/或關(guān)聯(lián)方免費的、全球范圍內(nèi)的、永久的、可轉(zhuǎn)讓的、可分許及再許可的使用權(quán)，以使公司對該信息內(nèi)容進(jìn)行存儲、使用、復(fù)制、修訂、編輯、發(fā)布、展示、反義、分發(fā)上述生成內(nèi)容，包括但不限于模型和服務(wù)優(yōu)化、相關(guān)研究、品牌推廣與宣傳、市場營銷、用戶調(diào)研；海螺AI隱私協(xié)議提到，每天會收到大量用戶上傳的內(nèi)容，并進(jìn)行改善算法，但會遵循《個人信息保護(hù)法》。

在業(yè)內(nèi)人士看來，雖然在預(yù)訓(xùn)練階段已經(jīng)使用了大量高質(zhì)量數(shù)據(jù)，但用戶在使用過程中產(chǎn)生的數(shù)據(jù)也能在一定程度上幫助模型更好地適應(yīng)不同的場景和用戶需求，從而提供更精準(zhǔn)、更個性化的服務(wù)。

安遠(yuǎn)AI資深研究經(jīng)理方亮告訴《IT時報》記者，根據(jù)用戶的輸入，模型會生成更符合用戶偏好的內(nèi)容，這些數(shù)據(jù)后續(xù)也可能被用于模型訓(xùn)練，以更好地滿足用戶需求。

二、僅能撤回語音信息

大模型幫助人們解放了雙手，個性化地滿足用戶需求，數(shù)據(jù)越豐富，就能更好提升大模型的效果，這無可厚非，關(guān)鍵在于是否根據(jù)個人信息使用的“最小化、匿名化、透明化”等原則進(jìn)行處理?！皬漠?dāng)前市面上通用大模型的隱私政策來看，其在保護(hù)用戶隱私方面的表現(xiàn)存在一定的復(fù)雜性，不能簡單地認(rèn)為它們完全保護(hù)或不保護(hù)用戶隱私?！庇袠I(yè)內(nèi)人士向《IT時報》記者表示。

比如豆包在其隱私政策中提到，在經(jīng)過安全加密技術(shù)處理、嚴(yán)格去標(biāo)識化且無法重新識別特定個人的前提下，可能會把向AI輸入的數(shù)據(jù)、發(fā)出的指令以及AI生成的回復(fù)等進(jìn)行分析和用于模型訓(xùn)練。

騰訊元寶的隱私政策表示，在服務(wù)過程中，會對交互上下文信息進(jìn)行去標(biāo)識化技術(shù)處理，避免識別到特定個人身份。元寶中的寫真形象館、百變AI頭像等人像類智能體或應(yīng)用生成內(nèi)容時，會進(jìn)行人工智能技術(shù)處理但不會留存人臉特征。

但隱私風(fēng)險依然不可忽視，有業(yè)內(nèi)人士向《IT時報》記者透露，一些模型雖然表示不會直接收集用戶的某些敏感信息，但對于用戶輸入的其他信息，在經(jīng)過分析和處理后，是否可能間接推斷出用戶的隱私內(nèi)容，這是值得關(guān)注的問題。此外，部分大模型的隱私政策在信息披露上不夠完善。

《IT時報》記者在查閱部分大模型隱私協(xié)議時發(fā)現(xiàn)，一些特定的交互情況如需要打開地理位置、攝像頭、麥克風(fēng)等授權(quán)，在交互結(jié)束后，授權(quán)可以關(guān)閉，但對撤回“投喂”的數(shù)據(jù)并不那么順暢。

騰訊元寶、豆包等允許用戶在App內(nèi)通過改變設(shè)置，來撤回語音數(shù)據(jù)。比如豆包表示，如果用戶不希望輸入或提供的語音信息用于模型訓(xùn)練和優(yōu)化，可以通過關(guān)閉“設(shè)置—賬號設(shè)置—改進(jìn)語音服務(wù)”撤回授權(quán)，但如果用戶不希望其他信息用于模型訓(xùn)練和優(yōu)化，需要通過郵件、電話等聯(lián)系，無法在App上自行設(shè)置。

三、原始語料或被“重現(xiàn)”

南都數(shù)字經(jīng)濟(jì)治理研究中心近期發(fā)布的報告顯示，多數(shù)平臺并未提供明確選項讓用戶拒絕其個人數(shù)據(jù)被用于AI模型訓(xùn)練，對于數(shù)據(jù)將被用于何種具體用途、會提供給哪些第三方等信息也披露不足，使得用戶難以全面了解數(shù)據(jù)流向和使用情況。

方亮向《IT時報》記者表示，目前在隱私保護(hù)方面，大模型企業(yè)存在一些改進(jìn)空間，例如數(shù)據(jù)收集和使用政策不夠透明、用戶對數(shù)據(jù)使用缺乏有效控制、數(shù)據(jù)存儲和傳輸?shù)陌踩珯C制需要加強、缺乏統(tǒng)一的隱私保護(hù)標(biāo)準(zhǔn)和規(guī)范等。他舉例道，“比如在一些情況下，用戶可能并不希望提供某些信息，或者希望刪除已經(jīng)提供的數(shù)據(jù)，但有的大模型沒有提供這樣的選項，這在一定程度上限制了用戶的自主選擇權(quán)?！狈搅琳f道。

雖然大多數(shù)大模型在隱私協(xié)議中提到使用不低于行業(yè)同行的加密技術(shù)、匿名化處理及相關(guān)可行的手段保護(hù)個人信息，但方亮對這些措施的實際效果仍有擔(dān)憂?！爱?dāng)用戶輸入個人信息后，盡管這些信息可能已經(jīng)去標(biāo)識化或者脫敏，但關(guān)鍵在于這些處理是否符合相關(guān)規(guī)定。如果遭到攻擊，是否仍可能通過關(guān)聯(lián)或分析技術(shù)恢復(fù)原始信息，這一點需要特別關(guān)注。此外，如何平衡好隱私保護(hù)、數(shù)據(jù)利用與模型性能之間的關(guān)系，也是亟待解決的問題 ?！?/p>

《IT時報》記者了解到，有研究表明，能夠從模型中獲取一定數(shù)量的原始語料。

在DARKNAVY深藍(lán)科技研究員肖軒淦看來，在大模型中，用戶輸入的數(shù)據(jù)一般被用于實時處理及數(shù)據(jù)存儲。實時處理是由大模型處理用戶輸入的素材并輸出內(nèi)容返回給用戶，即聊天過程，這些數(shù)據(jù)會上傳到云端進(jìn)行處理，也同樣會被存儲至云端，用戶能夠查看與大模型交互的歷史記錄。“帶來的風(fēng)險是，如果用戶輸入的內(nèi)容作為數(shù)據(jù)集，可能過段時間后當(dāng)其他人向大模型提問相關(guān)的內(nèi)容，會帶來信息泄露，被用于不當(dāng)目的?！毙ぼ庝普J(rèn)為。

“大模型的主要訓(xùn)練已經(jīng)在預(yù)訓(xùn)練時期基本完成，用戶與大模型之間的普通聊天內(nèi)容，并不算有效數(shù)據(jù)，不太會被大模型拿去訓(xùn)練?！辈贿^，也有業(yè)內(nèi)人士向《IT時報》記者表示，訓(xùn)練模型屬于前置工作，在已經(jīng)成型的大模型面前，用戶無須過度擔(dān)心隱私會被泄露。

四、“智能體”風(fēng)險更大

實際上，在不少安全人士看來，大模型帶來的隱私風(fēng)險并不只有這些。

“大模型在用戶隱私數(shù)據(jù)訪問方面有一定問題，與ChatGPT這類只能被動接收用戶輸入的系統(tǒng)不同，當(dāng)手機或電腦接入AI應(yīng)用后，就變成一個‘智能體’，這些應(yīng)用能夠主動訪問設(shè)備中的大量隱私信息，必須引起高度重視?！毙ぼ庝葡颉禝T時報》記者解釋，比如有的手機AI功能支持叫外賣，這樣位置、支付、偏好等信息都會被AI應(yīng)用悄無聲息地讀取與記錄，增加了個人隱私泄露的風(fēng)險。

DARKNAVY曾針對手機端的AI應(yīng)用進(jìn)行深入研究，發(fā)現(xiàn)一些應(yīng)用已經(jīng)意識到隱私數(shù)據(jù)訪問的敏感性和重要性。例如，Apple Intelligence就明確表示其云端不會存儲用戶數(shù)據(jù)，并采用多種技術(shù)手段防止包括Apple自身在內(nèi)的任何機構(gòu)獲取用戶數(shù)據(jù)，贏得用戶信任。

歐洲數(shù)據(jù)保護(hù)委員會（EDPB）近日通過了關(guān)于人工智能模型中個人數(shù)據(jù)處理相關(guān)數(shù)據(jù)保護(hù)問題的意見（Opinion 28/2024），其中提到，AI模型的匿名性不能僅靠簡單的聲明，而需要通過嚴(yán)格的技術(shù)論證和持續(xù)的監(jiān)控來保證，同時也強調(diào)企業(yè)不僅需要證明數(shù)據(jù)處理的必要性，還要證明所采用侵入性最小的方式。

“未來，針對隱私和版權(quán)保護(hù)的法規(guī)和標(biāo)準(zhǔn)將更加嚴(yán)格，推動企業(yè)強化數(shù)據(jù)保護(hù)措施?！狈搅两ㄗh，大模型企業(yè)在收集訓(xùn)練數(shù)據(jù)前應(yīng)實施負(fù)責(zé)任的數(shù)據(jù)收集，需要考慮適用的監(jiān)管框架，并盡可能最小化數(shù)據(jù)收集范圍；在使用輸入數(shù)據(jù)訓(xùn)練大模型之前對其進(jìn)行審核，嘗試識別可能產(chǎn)生危險能力、侵犯知識產(chǎn)權(quán)或包含敏感個人信息的數(shù)據(jù)；根據(jù)數(shù)據(jù)審核結(jié)果，采取適當(dāng)?shù)娘L(fēng)險緩解措施；促進(jìn)對訓(xùn)練數(shù)據(jù)集的外部審查機制。同時，用戶應(yīng)擁有更大的權(quán)力來管理和控制其數(shù)據(jù)。

作者／ IT時報記者潘少穎毛宇

編輯／錢立富孫妍

來源／《IT時報》公眾號vittimes

本文由人人都是產(chǎn)品經(jīng)理作者【IT時報】，微信公眾號：【IT時報】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App