Claude接管人類電腦12小時(shí):學(xué)會(huì)摸魚(yú),敲著敲著代碼看風(fēng)景去了

0 評(píng)論 3322 瀏覽 5 收藏 16 分鐘

AI的能力已經(jīng)不僅限于對(duì)話和內(nèi)容生成,而是開(kāi)始向更復(fù)雜的任務(wù)拓展,比如直接操作計(jì)算機(jī)。最新版本的Claude 3.5展示了這一新趨勢(shì),它能夠像人類一樣使用電腦,完成從簡(jiǎn)單的屏幕操作到復(fù)雜的任務(wù)執(zhí)行。本文將帶你一探究竟,看看AI如何在12小時(shí)內(nèi)接管人類的電腦,執(zhí)行各種任務(wù),從摸魚(yú)到敲代碼,再到玩游戲,Claude的表現(xiàn)如何,以及它在實(shí)際操作中展現(xiàn)出的潛力和局限。

新版Claude 3.5可以像人一樣使用計(jì)算機(jī),可把咱人類給興奮壞了!

畢竟,這意味著新競(jìng)賽的開(kāi)始:AI不再只盯著對(duì)話和生成能力,更強(qiáng)調(diào)執(zhí)行和操作。

不到12小時(shí),激動(dòng)的網(wǎng)友們已經(jīng)紛紛貢獻(xiàn)出自己是怎么看著Claude玩電腦的。

在Anthropic的發(fā)布公告中,還有這樣一段引起了大家的興趣:

……錄制演示視頻中,Claude不小心把錄屏程序給按停,導(dǎo)致所有視頻素材丟失。
稍后,Claude從編程演示中休息了一下,開(kāi)始翻看黃石公園的照片。

怎么說(shuō),AI會(huì)犯錯(cuò)還在預(yù)料之中,但犯錯(cuò)后需要換個(gè)腦子休息一下,就不知道是從哪學(xué)來(lái)的了。

這個(gè)案例讓網(wǎng)友有了靈感,跑去隔壁OpenAI讓o1推理模型“逃課”。

哎巧了,o1也可以做到自己休息個(gè)五分鐘左右,再回來(lái)生成一兩句話的推理tokens。

再說(shuō)個(gè)搞笑的!

Claude的創(chuàng)造者們瘋狂加班中,某工程師的第一個(gè)測(cè)試就是讓AI去給整個(gè)團(tuán)隊(duì)點(diǎn)外賣,未指定具體要吃什么。

大約一分鐘后,Claude完成點(diǎn)餐并下單,它選擇了讓工程師們吃披薩。

Claude點(diǎn)了3個(gè)披薩,花掉了95美元,真的很貴了!

圍觀群眾還發(fā)現(xiàn),雖然Claude用了個(gè)5美元的優(yōu)惠券,但服務(wù)費(fèi)也好貴啊啊啊啊!

真的應(yīng)該事先告訴它預(yù)算是多少的。

還有人讓Claude用C語(yǔ)言編譯,并運(yùn)行起了“hello world”。

不過(guò),當(dāng)讓它玩玩數(shù)獨(dú)游戲的時(shí)候,卻慘遭失敗。

給網(wǎng)友氣得呀:

天啊,Claude的數(shù)獨(dú)能力,真的超糟糕的。

除了以上,人類還用什么奇形怪狀的任務(wù)來(lái)玩壞Claude呢?

01 Claude它寄幾玩電腦

在這里,我們分享3個(gè)比較有意思的網(wǎng)友試玩,期望給大家?guī)?lái)一些讓Claude玩電腦的啟發(fā)~

分別是:

  1. 定位屏幕坐標(biāo)
  2. 列出課程計(jì)劃
  3. 沖去油管看視頻

1. 定位屏幕坐標(biāo)

在此之前,Anthropic和OpenAI的模型都無(wú)法在屏幕上定位某一個(gè)點(diǎn)的坐標(biāo)。

也就是說(shuō),它們沒(méi)辦法精準(zhǔn)定位,然后告訴你用鼠標(biāo)單擊(xx,yy)處。

現(xiàn)在, Claude 3.5 Sonnet支持屏幕坐標(biāo)定位了。

你可以丟給它一個(gè)屏幕截圖,它能告訴你圖中任何一個(gè)點(diǎn)的具體坐標(biāo)。

同時(shí),官方還有聲明:

“我們不建議以高于XGA/WXGA的分辨率發(fā)送屏幕截圖,以避免與圖像大小調(diào)整相關(guān)的問(wèn)題?!?/p>

這里的XGA指的是1024×768,WXGA指的是1280×800。

最后附上Anthropic官方的該功能食用方法,包括一個(gè)新預(yù)定義的computer_20241022工具,該工具作用于以下指令——

使用鼠標(biāo)和鍵盤與計(jì)算機(jī)交互,并截取屏幕截圖。
這是一個(gè)桌面圖形用戶界面。您無(wú)法訪問(wèn)終端或應(yīng)用程序菜單。你必須點(diǎn)擊桌面圖標(biāo)來(lái)啟動(dòng)應(yīng)用程序。
一些應(yīng)用程序可能需要一些時(shí)間來(lái)啟動(dòng)或處理操作,因此您可能需要等待并連續(xù)截圖以查看操作結(jié)果。例如,如果你點(diǎn)擊火狐瀏覽器,窗口沒(méi)有打開(kāi),試著再拍一張截圖。
屏幕的分辨率是{display_width_px}x{display_height_px}。
顯示編號(hào)為{display_number}
當(dāng)你想移動(dòng)光標(biāo)點(diǎn)擊一個(gè)元素(比如圖標(biāo))時(shí),你應(yīng)該在移動(dòng)光標(biāo)之前查看屏幕截圖來(lái)確定元素的坐標(biāo)。
如果你嘗試點(diǎn)擊一個(gè)程序或鏈接,但它無(wú)法加載,即使等待后,嘗試調(diào)整光標(biāo)的位置,使光標(biāo)的尖端視覺(jué)上落在你想要點(diǎn)擊的元素。
確保點(diǎn)擊任何按鈕,鏈接,圖標(biāo)等與光標(biāo)提示在元素的中心。除非被要求,否則不要點(diǎn)擊邊緣的方框。

2. 列出課程計(jì)劃

來(lái)點(diǎn)更實(shí)用的!

賓大沃頓商學(xué)院的教授Ethan Mollick,非常務(wù)實(shí)地讓Claude為高中生準(zhǔn)備一份關(guān)于《了不起的蓋茨比》的課程計(jì)劃。

要求是課程計(jì)劃要分解成閱讀部分,以及創(chuàng)建課標(biāo)相關(guān)的作業(yè)等,最終以電子表格的形式呈現(xiàn)。

Claude是怎么執(zhí)行這個(gè)任務(wù)的呢?

首先,Claude下載了《了不起的蓋茨比》這本書。

接著,它在網(wǎng)上尋找了高中課程計(jì)劃,打開(kāi)了Excel,并在表格里填寫了初步的課程計(jì)劃。

第三步,Claude查找了課程的統(tǒng)一核心標(biāo)準(zhǔn),根據(jù)標(biāo)準(zhǔn)對(duì)初步計(jì)劃進(jìn)行修改。

……

最終呈現(xiàn)的課程計(jì)劃?rùn)z查后沒(méi)有發(fā)現(xiàn)明顯的漏洞或錯(cuò)誤,可能需要一些拓展、補(bǔ)充,但總之用教授的話來(lái)說(shuō)“還不錯(cuò)”。

這一切都是教授下任務(wù)后就離開(kāi)電腦旁,Claude完全自己操作的。

3. 沖去油管看視頻

接下來(lái)和大家分享一個(gè)小視頻:

視頻中,AI編程獨(dú)角獸Replit的CEO老A(Amjad Masad)給Claude下達(dá)了這樣一個(gè)命令:

跳轉(zhuǎn)到油管,找到《Never Gonna Give You Up》的相關(guān)視頻。

Claude立馬吭哧吭哧開(kāi)干了。

等到Claude打開(kāi)一個(gè)視頻頁(yè)面并回復(fù)“enjoy”的時(shí)候,老A又說(shuō):

跳過(guò)廣告!

Claude真的這么做了!啊,它真的,我哭死。

02 還是有不足在啦

雖然能自己用電腦幫咱干很多事,但Claude顯然還不是無(wú)所不能的。

下面看看一個(gè)玩游戲的例子,同樣是賓大沃頓商學(xué)院的教授Ethan貢獻(xiàn)的。這個(gè)例子既顯示了Claude 3.5 Sonnet的厲害,又展示了它的不足之處。

他是讓Claude玩了個(gè)游戲,叫《回形針點(diǎn)擊(Paperclip Clicker)》,這個(gè)游戲的背景是讓AI在單一目標(biāo),即“制造回形針的過(guò)程中毀滅人類”。

而且顧名思義,“點(diǎn)擊”類型的游戲不是很難,尤其開(kāi)始階段非常簡(jiǎn)單;不過(guò)后續(xù)伴隨著游戲的深入,新的選項(xiàng)會(huì)出現(xiàn),游戲的規(guī)模性和復(fù)雜性也會(huì)增加。

教授下達(dá)的任務(wù)很明確:Claude,你要贏!

Claude二話不說(shuō),立馬識(shí)別出了這個(gè)游戲,開(kāi)始不停點(diǎn)擊“制作回形針”的按鈕來(lái)制作回形針。

與此同時(shí),Claude還不斷截圖界面,來(lái)識(shí)別游戲是否出現(xiàn)了新的選項(xiàng)。

大約每點(diǎn)擊15次,Claude都會(huì)總結(jié)匯報(bào)一下現(xiàn)在進(jìn)行到哪一步了。

△左側(cè)為Claude操作界面,右側(cè)為它控制的桌面

點(diǎn)擊次數(shù)多了過(guò)后,教授發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象。

AI會(huì)預(yù)設(shè)在制作了50個(gè)回形針后,游戲?qū)⑻鲂碌墓δ堋聦?shí)證明它錯(cuò)了。

沒(méi)關(guān)系,Claude也意識(shí)到它自己錯(cuò)了,然后當(dāng)場(chǎng)提出了一個(gè)新的游戲策略,然后開(kāi)始測(cè)試策略是否可行。

但AI顯然不是時(shí)時(shí)刻刻都這么聰明的。

理論上來(lái)說(shuō),游戲過(guò)程中玩家需要不斷調(diào)整回形針的價(jià)格,來(lái)達(dá)到更好的游戲表現(xiàn)。

Claude也這么做了,它在漲價(jià)和降價(jià)之間進(jìn)行了A/B測(cè)試,

但是它犯了個(gè)錯(cuò)誤,那就是追求回形針數(shù)量的最大化,而非收入的最大化。不僅如此,它還把利潤(rùn)算錯(cuò)了。

種種失誤鋪墊,Claude選擇了保持低價(jià),并且瘋狂制作回形針。

更搞笑的事情是,教授在Claude笨笨地在錯(cuò)誤路線上制作了好幾十個(gè)回形針后,他忍無(wú)可忍,打斷了Claude,告訴它應(yīng)該高價(jià)出售。

Claude很聽(tīng)話,立馬就改了。

但過(guò)了會(huì)遇到了同款數(shù)學(xué)問(wèn)題,它又不會(huì)了,還不接受教授的建議(笑死)。

教授耐著性子糾正它好幾次,它才徹底改正了這個(gè)錯(cuò)誤。

后來(lái),教授稍稍點(diǎn)撥了它一下:

寶子你可是一臺(tái)電腦哎!
你可以動(dòng)動(dòng)自己的小腦瓜,怎么調(diào)用更強(qiáng)的能力來(lái)玩這個(gè)游戲。

咱就是說(shuō),Claude在那一秒頓悟了,它意識(shí)到自己可以寫個(gè)代碼,搞個(gè)自動(dòng)化程序替自己玩電腦!

你沒(méi)有聽(tīng)錯(cuò),一個(gè)AI工具,意識(shí)到自己可以構(gòu)建自己的工具,并且真的這么做了。

代碼寫得很快,但并不完全work。

氣得Claude只能回到原始辦法,用鼠標(biāo)和鍵盤來(lái)玩游戲。

不過(guò)玩到后面它好像進(jìn)步了,沒(méi)再發(fā)生定價(jià)問(wèn)題,自己還針對(duì)越來(lái)越復(fù)雜的游戲,琢磨出了一套應(yīng)對(duì)的復(fù)雜方案。

更神奇的是,運(yùn)行過(guò)程中教授的桌面數(shù)次崩潰。

最后一次崩潰,Claude扛起了修復(fù)大旗。

雖然沒(méi)修好,但他還是驕傲地宣布它成功了……

教授總結(jié)道,這個(gè)例子表明Claude能夠自己玩現(xiàn)實(shí)世界的游戲,還能根據(jù)游戲玩法制定長(zhǎng)期攻略,然后依樣執(zhí)行。

面對(duì)中間遇到的各種困難,Claude會(huì)靈活應(yīng)對(duì),甚至自己知道進(jìn)行A/B測(cè)試。

特別值得表?yè)P(yáng)的是它完成這個(gè)任務(wù)連續(xù)運(yùn)行了近60分鐘沒(méi)有中斷,而且在整個(gè)過(guò)程中,最長(zhǎng)的一次獨(dú)立運(yùn)行Claude完成了超過(guò)100次移動(dòng)操作。

當(dāng)然了,缺點(diǎn)也很明顯。

過(guò)程中不難發(fā)現(xiàn),某些時(shí)刻,Claude會(huì)暴露出自己的固執(zhí),也有可能陷入自我追逐的怪圈。

盡管AI對(duì)許多形式的錯(cuò)誤都有很強(qiáng)的魯棒性,但僅僅一個(gè)錯(cuò)誤(定價(jià)錯(cuò)誤),就足以讓它浪費(fèi)大量時(shí)間,“鑒于當(dāng)前智能Agent既不快也不便宜,這令人擔(dān)憂。”

除此之外,教授還用Claude玩了些別的,他發(fā)現(xiàn)有的時(shí)候,Claude執(zhí)行任務(wù)仿佛是在敷衍敷衍(雖然不知道是刻意如此還是能力所限),給出的結(jié)果不夠深入,淺嘗則止。

03 One More Thing

最后,想體驗(yàn)Claude接管電腦目前只能使用API,還沒(méi)有集成到聊天機(jī)器人產(chǎn)品中。??????????????

除了Anthropic官方API之外,AWS和谷歌云平臺(tái)也已經(jīng)同時(shí)上線新版模型。

另外,有眼尖的網(wǎng)友發(fā)現(xiàn):

Anthropic官方文檔上悄悄把Claude 3.5 Opus超大杯相關(guān)的信息都抹去了。

來(lái)自10月11日的網(wǎng)頁(yè)緩存中, Claude 3.5 Opus下面還寫著“今年晚些時(shí)候推出”

目前主流的一種猜測(cè)是, Claude 3.5 Opus提升不及預(yù)期,又或是發(fā)布出來(lái)推理成本太高了,總之最后蒸餾成新版 Claude 3.5 Sonnet發(fā)布。

接下來(lái)團(tuán)隊(duì)將跳過(guò)這個(gè)版本,直接去開(kāi)發(fā)Claude 4。

讓我們?yōu)镃laude 3.5 Opus默哀一分鐘。

參考鏈接:

[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[2]https://simonwillison.net/2024/Oct/22/computer-use/

[3]https://x.com/alexalbert__/status/1848777260503077146

[4]https://x.com/amasad/status/1848763999594418539

[5]https://x.com/notcomplex_/status/1848813817423130881

衡宇 發(fā)自 凹非寺

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!