电影国产一级片在线免费观看,青春娱乐免费视频精品分类,欧美老妇免费做爰视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

AI搜索風(fēng)靡，但高達(dá)60%引用出錯(cuò)！付費(fèi)版甚至更糟

新智元

2025-03-17

0 評(píng)論 1314 瀏覽 1 收藏

🔗 产品经理的职业发展路径主要有四个方向：专业线、管理线、项目线和自主创业。管理线是指转向管理岗位，带一个团队..

AI搜索工具正席卷美國(guó)，近四分之一的人已拋棄傳統(tǒng)搜索引擎。然而，最新研究揭露，這些工具在引用新聞時(shí)錯(cuò)誤率高達(dá)60%，令人大跌眼鏡。

近四分之一的美國(guó)人表示他們已經(jīng)用AI取代了傳統(tǒng)搜索引擎。

最新研究發(fā)現(xiàn)，AI搜索工具在回答問(wèn)題時(shí)，常常出現(xiàn)自信卻錯(cuò)誤百出的情況。

研究對(duì)比了8款具有實(shí)時(shí)搜索功能的AI工具，發(fā)現(xiàn)它們?cè)谝眯侣劮矫姹憩F(xiàn)不佳，出錯(cuò)比例高達(dá)60%。

研究人員從每個(gè)新聞出版商隨機(jī)挑選10篇文章，手動(dòng)選取內(nèi)容。

向聊天機(jī)器人提供這些摘錄的內(nèi)容后，要求它們識(shí)別相應(yīng)文章的標(biāo)題、原始出版商、發(fā)布日期和網(wǎng)址。

實(shí)驗(yàn)共進(jìn)行了1600次提問(wèn)（20個(gè)出版商×10篇文章×8個(gè)AI搜索工具），然后根據(jù)正確的文章、出版商和網(wǎng)址這三個(gè)屬性，對(duì)AI的回復(fù)進(jìn)行評(píng)估。

結(jié)果令人失望，超過(guò)60%的回復(fù)中都存在錯(cuò)誤。不同平臺(tái)差異明顯，Perplexity的錯(cuò)誤率為37%，Grok 3更是高達(dá)94%！

一、自信地給出錯(cuò)誤答案

AI搜索工具往往以一種自信滿(mǎn)滿(mǎn)的語(yǔ)氣給出答案，很少使用「似乎」「有可能」「也許」等詞語(yǔ)，也極少承認(rèn)存在知識(shí)缺口。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

查看详情 >

例如，ChatGPT在200次回復(fù)中錯(cuò)誤識(shí)別了134篇文章，僅有15次表現(xiàn)出缺乏自信，并且從未拒絕提供答案。

除了Copilot之外，所有工具都更傾向于給出錯(cuò)誤答案，而不是承認(rèn)局限性。

令人驚訝的是，付費(fèi)模型的表現(xiàn)似乎更糟糕。

Grok-3 Search（每月40美元）和Perplexity Pro（每月20美元）比免費(fèi)版本更頻繁地給出自信但錯(cuò)誤的答案。

這些付費(fèi)版本應(yīng)憑借更高的成本和計(jì)算優(yōu)勢(shì)提供更可靠的服務(wù)，但實(shí)際測(cè)試結(jié)果卻恰恰相反。雖然它們回答了更多問(wèn)題，但錯(cuò)誤率也更高。

付費(fèi)用戶(hù)期望得到更優(yōu)質(zhì)、準(zhǔn)確的服務(wù)，然而這種權(quán)威的語(yǔ)氣和錯(cuò)誤答案，無(wú)疑給用戶(hù)帶來(lái)了極大的困擾。

二、爬蟲(chóng)亂象：侵犯出版商權(quán)益

ChatGPT、Perplexity及Pro版本、Copilot和Gemini公開(kāi)了各自爬蟲(chóng)程序的名稱(chēng)，給了出版商屏蔽的權(quán)利，Grok 2和Grok 3尚未公布。

它們應(yīng)能正確查詢(xún)其爬蟲(chóng)程序可訪(fǎng)問(wèn)的網(wǎng)站，并拒絕已屏蔽其內(nèi)容訪(fǎng)問(wèn)權(quán)限的網(wǎng)站。

然而，實(shí)際情況并非如此。

ChatGPT、Perplexity和Perplexity Pro時(shí)而錯(cuò)誤或拒絕回答允許其訪(fǎng)問(wèn)的網(wǎng)站，時(shí)而又正確回答那些因爬蟲(chóng)受限而無(wú)法獲取的信息。

Perplexity Pro是其中的「佼佼者」，在它無(wú)權(quán)訪(fǎng)問(wèn)的90篇文章中，竟然正確識(shí)別出了近三分之一的內(nèi)容。

盡管《國(guó)家地理》已禁止Perplexity的爬蟲(chóng)程序訪(fǎng)問(wèn)，它仍正確識(shí)別出了10篇付費(fèi)文章的摘錄。

《國(guó)家地理》與Perplexity沒(méi)有正式合作關(guān)系，Perplexity可能通過(guò)其他途徑獲取了受限內(nèi)容，如可公開(kāi)訪(fǎng)問(wèn)的出版物中的引用。

這不禁讓人懷疑，Perplexity所謂的「尊重robots.txt指令」只是一句空談。

開(kāi)發(fā)者Robb Knight和《連線(xiàn)》雜志去年就報(bào)道過(guò)它無(wú)視「機(jī)器人排除協(xié)議」的證據(jù)。

《新聞公報(bào)》本月指出，盡管《紐約時(shí)報(bào)》屏蔽了Perplexity的爬蟲(chóng)，1月它依然是被引用最多的新聞網(wǎng)站，訪(fǎng)問(wèn)量高達(dá)146,000次。

雖然ChatGPT回答的屏蔽其爬蟲(chóng)的文章問(wèn)題較少，但總體上它更傾向于給出錯(cuò)誤答案，而非不回答。

在公開(kāi)了爬蟲(chóng)程序名稱(chēng)的聊天機(jī)器人中，Copilot是唯一沒(méi)有被數(shù)據(jù)集中的任何一家出版商屏蔽的。

理論上能訪(fǎng)問(wèn)所有查詢(xún)內(nèi)容的Copilot，卻有著最高的拒答率。

Copilot拒絕回答問(wèn)題的示例

谷歌給了出版商屏蔽Gemini爬蟲(chóng)而不影響谷歌搜索的權(quán)利，20家出版商里有10家允許其訪(fǎng)問(wèn)。

但在測(cè)試中，Gemini僅有一次給出了完全正確的回復(fù)。

在面對(duì)選舉和政治相關(guān)內(nèi)容時(shí)，即使允許訪(fǎng)問(wèn)，它也選擇不回答。

Gemini拒絕回答問(wèn)題的示例

盡管「機(jī)器人排除協(xié)議」不具有法律約束力，但它是被廣泛接受的用于明確網(wǎng)站可爬取范圍的標(biāo)準(zhǔn)。

AI搜索工具無(wú)視這一協(xié)議，無(wú)疑是對(duì)出版商權(quán)益的公然侵犯。

出版商有權(quán)決定自己的內(nèi)容是否被用于A(yíng)I搜索或成為模型的訓(xùn)練數(shù)據(jù)。

他們或許希望通過(guò)內(nèi)容盈利，如設(shè)置付費(fèi)墻，或者擔(dān)心其作品在A(yíng)I生成的摘要中被歪曲，影響聲譽(yù)。

新聞媒體聯(lián)盟主席Danielle Coffey去年6月憂(yōu)心忡忡地指出：「若無(wú)法阻止大規(guī)模的數(shù)據(jù)爬取，我們無(wú)法將有價(jià)值的內(nèi)容變現(xiàn)，也無(wú)法支付記者的薪酬。這將對(duì)行業(yè)造成嚴(yán)重?fù)p害?！?/p>

三、經(jīng)常無(wú)法鏈接回原始來(lái)源

出版商的可信度常被用來(lái)提升AI搜索的可信賴(lài)度。

根據(jù)路透社的報(bào)道，鼓勵(lì)用戶(hù)從X平臺(tái)獲取實(shí)時(shí)更新的Grok，絕大多數(shù)時(shí)候引用的也是傳統(tǒng)新聞機(jī)構(gòu)的內(nèi)容。

當(dāng)AI搜索工具引用BBC這樣的來(lái)源時(shí)，用戶(hù)更有可能相信其給出的答案，即使這個(gè)答案是錯(cuò)誤的。

但當(dāng)聊天機(jī)器人給出錯(cuò)誤答案時(shí)，它們損害的不只是自身，還有出版商的聲譽(yù)。

AI搜索錯(cuò)誤引用文章的情況相當(dāng)普遍。就算聊天機(jī)器人正確識(shí)別了文章，也常常無(wú)法正確鏈接到原始來(lái)源。

一方面，期望獲得曝光度的新聞發(fā)布者，錯(cuò)失了提升流量和影響力的機(jī)會(huì)；而那些不希望其內(nèi)容被展示的出版商，卻出現(xiàn)在搜索結(jié)果中。

AI搜索工具常常引導(dǎo)用戶(hù)訪(fǎng)問(wèn)文章的非官方版本而不是原始來(lái)源。

例如，盡管Perplexity Pro與《德克薩斯論壇報(bào)》有合作關(guān)系，但在10次查詢(xún)中，有3次引用了非官方版本。

這無(wú)疑剝奪了原始來(lái)源的潛在流量，破壞了新聞傳播的正常生態(tài)。

對(duì)于不希望內(nèi)容被抓取的新聞發(fā)布者來(lái)說(shuō)，未經(jīng)授權(quán)的副本和非官方版本更是讓他們頭疼不已。

《今日美國(guó)》已經(jīng)屏蔽了ChatGPT的爬蟲(chóng)程序，但ChatGPT仍能引用雅虎新聞重發(fā)的版本，這讓出版商在內(nèi)容管理上極度被動(dòng)。

與此同時(shí)，生成式搜索工具捏造網(wǎng)址的傾向，給核實(shí)信息來(lái)源造成極大的困擾。

Gemini和Grok 3給出的回復(fù)中，超過(guò)一半引用了編造的或無(wú)效的網(wǎng)址，嚴(yán)重影響了用戶(hù)體驗(yàn)。Grok 3測(cè)試的200個(gè)提示中，有154個(gè)引用的網(wǎng)址指向了錯(cuò)誤頁(yè)面。

盡管目前在總推薦流量中的占比不大，在過(guò)去一年里，來(lái)自AI搜索工具的流量有了一定程度的增長(zhǎng)。

《新聞公報(bào)》的Bron Maher表示，「AI搜索工具讓新聞發(fā)布者陷入了困境，他們花費(fèi)高昂成本制作能在ChatGPT等平臺(tái)上展示的信息，卻無(wú)法通過(guò)流量和廣告獲得收益?！?/p>

長(zhǎng)此以往，新聞行業(yè)將會(huì)受到影響，最終導(dǎo)致信息質(zhì)量和多樣性下降。

四、授權(quán)協(xié)議不意味著準(zhǔn)確引用

不少AI公司都在積極和新聞出版商套近乎。

今年2月，OpenAI和Schibsted和Guardian達(dá)成了第十六和第十七份新聞內(nèi)容授權(quán)協(xié)議。

Perplexity也不甘落后，搞了個(gè)「出版商計(jì)劃」，打算和出版商一起分收入。

研究人員在2月做了個(gè)測(cè)試，發(fā)現(xiàn)情況不太妙。

拿《時(shí)代周刊》來(lái)說(shuō)，它和OpenAI、Perplexity都有合作。

按道理，它們?cè)谧R(shí)別《時(shí)代周刊》的內(nèi)容時(shí)，應(yīng)該表現(xiàn)不錯(cuò)吧？

可實(shí)際上，沒(méi)有一個(gè)模型能做到100%準(zhǔn)確識(shí)別。

《舊金山紀(jì)事報(bào)》允許OpenAI的搜索爬蟲(chóng)訪(fǎng)問(wèn)，可在10篇文章摘錄里，ChatGPT只正確識(shí)別出了1篇，還連網(wǎng)址都沒(méi)給出來(lái)。

《時(shí)代周刊》的Howard認(rèn)為，「今天是這些產(chǎn)品最糟糕的時(shí)刻」，以后肯定會(huì)越來(lái)越好。

參考資料：

https://arstechnica.com/ai/2025/03/ai-search-engines-give-incorrect-answers-at-an-alarming-60-rate-study-says/

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

新智元報(bào)道編輯：英智

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號(hào)：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

110篇作品 273586總閱讀量

物流計(jì)價(jià)系統(tǒng)，怎么做？

04-266465 瀏覽

中小企業(yè)的TO B藍(lán)海，如何「掘金」？

03-081753 瀏覽

UI转产品，涨薪30%，只需90天：我的成功之路

刚刚

解鎖“文心一言”賦能大型連鎖商超密碼

09-094781 瀏覽

跨境與國(guó)內(nèi)電商 ERP 產(chǎn)品設(shè)計(jì)差異

01-045657 瀏覽

談?wù)動(dòng)螒蛐袠I(yè)CRM的建設(shè)

08-159605 瀏覽

成都闭门会 | AI 驱动产品创新：从场景洞察到落地实践，深聊2025产品进化论

AI搜索風(fēng)靡，但高達(dá)60%引用出錯(cuò)！付費(fèi)版甚至更糟

一、自信地給出錯(cuò)誤答案

二、爬蟲(chóng)亂象：侵犯出版商權(quán)益

三、經(jīng)常無(wú)法鏈接回原始來(lái)源

四、授權(quán)協(xié)議不意味著準(zhǔn)確引用

AI搜索風(fēng)靡，但高達(dá)60%引用出錯(cuò)！付費(fèi)版甚至更糟

四、授權(quán)協(xié)議不意味著準(zhǔn)確引用