Physical Intelligence 創(chuàng)始人:人形機(jī)器人被高估了

0 評(píng)論 1224 瀏覽 0 收藏 34 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

在人工智能和機(jī)器人技術(shù)飛速發(fā)展的今天,人形機(jī)器人成為了科技界的熱門(mén)話題。然而,Physical Intelligence(PI)的創(chuàng)始人Chelsea Finn卻認(rèn)為,人形機(jī)器人目前被高估了。本文通過(guò)與Chelsea Finn的對(duì)話,深入探討了機(jī)器人領(lǐng)域的最新進(jìn)展、泛化能力的重要性、數(shù)據(jù)多樣性的關(guān)鍵作用,以及PI公司的發(fā)展方向。

AI Robotics 是我們長(zhǎng)期關(guān)注的賽道之一,通用機(jī)器人是 AGI 從數(shù)字世界走向物理世界的重要路徑,而 robot foundation model 要做的就是給機(jī)器人構(gòu)建一個(gè)大腦,從軟件角度實(shí)現(xiàn)機(jī)器人的通用能力。在 AI robotcis 的主題下,Physical Intelligence 是我們最為關(guān)注的公司之一。

PI 被視為是機(jī)器人領(lǐng)域的 OpenAI,是所有機(jī)器人公司中 research 水平和人才密度最高的團(tuán)隊(duì),團(tuán)隊(duì)的核心目標(biāo)是開(kāi)發(fā)通用機(jī)器人的 foundation model,今年 2 月,PI 開(kāi)源了通用模型 π0 的代碼和權(quán)重,2 月 26 日,PI 又推出了 Hi Robot,能夠?qū)?π0 等VLA 模型納入一個(gè)分層推理過(guò)程。

本篇內(nèi)容是我們對(duì) PI 核心創(chuàng)始人 Chelsea Finn 最新觀點(diǎn)的編譯理解。圍繞 π0 和 Hi Robot,Chelsea Finn 分享了機(jī)器人是如何實(shí)現(xiàn)泛化?她認(rèn)為,數(shù)據(jù)人就是關(guān)鍵中的關(guān)鍵,并且一定要獲取更多樣化的機(jī)器人數(shù)據(jù),而不僅僅只關(guān)注數(shù)據(jù)的質(zhì)量,最終的目標(biāo)是擴(kuò)大真實(shí)機(jī)器人數(shù)據(jù)的規(guī)模。

同時(shí),Chelsea Finn 也理性地認(rèn)為,雖然人形機(jī)器人這個(gè)形態(tài)很酷,但當(dāng)下,人形機(jī)器人被高估了。要實(shí)現(xiàn)機(jī)器人領(lǐng)域的 AGI,物理智能才是核心,未來(lái)一定會(huì)有各種各樣的機(jī)器人形態(tài),PI 內(nèi)部將機(jī)器人的 AGI 時(shí)刻定義為“寒武紀(jì)大爆發(fā)”。

?? 目錄 ??

01 Chelsea Finn 機(jī)器研究的開(kāi)端

02 PI 的研究進(jìn)展和發(fā)展03 機(jī)器人怎么實(shí)現(xiàn) AGI?

04 Hi Robot

05 機(jī)器人需要哪些感官?

06 自動(dòng)駕駛 VS 機(jī)器人領(lǐng)域

07 對(duì)訓(xùn)練數(shù)據(jù)和硬件的看法

01. Chelsea Finn 是如何進(jìn)入機(jī)器人領(lǐng)域的?

Elad:你是如何進(jìn)入機(jī)器人領(lǐng)域的,最初是什么吸引了你?

Chelsea Finn:一開(kāi)始,我對(duì)機(jī)器人可能帶來(lái)的影響感到非常興奮。與此同時(shí),我也對(duì)發(fā)展感知和智能的問(wèn)題非常著迷,機(jī)器人體現(xiàn)了這一切。有時(shí)候這個(gè)領(lǐng)域涉及到一些有趣的數(shù)學(xué)問(wèn)題,能讓大腦保持活躍,不斷思考。這些都是從事這個(gè)領(lǐng)域很有趣的地方。

我真正開(kāi)始認(rèn)真研究機(jī)器人大概是在 10 多年前,當(dāng)時(shí)我剛開(kāi)始在伯克利攻讀博士。我們當(dāng)時(shí)在做神經(jīng)網(wǎng)絡(luò)控制,試圖訓(xùn)練神經(jīng)網(wǎng)絡(luò),使得圖像像素可以直接映射到機(jī)器人手臂的扭矩。在當(dāng)時(shí),這種方法還不太流行。但如今,這個(gè)方向已經(jīng)取得了巨大進(jìn)展,在機(jī)器人領(lǐng)域受到了更多認(rèn)可,也讓越來(lái)越多的人感到興奮。

從那個(gè)時(shí)候開(kāi)始,我就很清楚,我們可以訓(xùn)練機(jī)器人完成一些很酷的任務(wù)。但真正的挑戰(zhàn)在于,如何讓機(jī)器人在不同環(huán)境、面對(duì)不同物體時(shí)都能完成這些任務(wù)。10 年前,我們訓(xùn)練機(jī)器人去擰緊瓶蓋、用鏟子把物體放進(jìn)碗里、精準(zhǔn)地插入物體,或者把衣架掛到衣架桿上。這些任務(wù)本身已經(jīng)很酷了,但讓機(jī)器人在不同環(huán)境、面對(duì)不同物體時(shí)都能執(zhí)行這些任務(wù),才是真正的難點(diǎn)。

因此,我一直在思考如何構(gòu)建更廣泛的數(shù)據(jù)集,如何基于這些數(shù)據(jù)集進(jìn)行訓(xùn)練,以及有哪些不同的學(xué)習(xí)方法,比如強(qiáng)化學(xué)習(xí)、視頻預(yù)測(cè)、模仿學(xué)習(xí)等。我在博士期間和加入斯坦福之前,曾在 Google Brain 工作了一段時(shí)間。后來(lái),我成為了斯坦福大學(xué)的教授,在那里建立了自己的實(shí)驗(yàn)室,并在這些方向上做了大量研究。

大約一年前,我與合伙人們共同創(chuàng)立了 Physical Intelligence,希望能夠真正實(shí)現(xiàn)我們的愿景。我為此離開(kāi)了斯坦福大學(xué),但我仍然在斯坦福指導(dǎo)學(xué)生。

02.PI 的研究進(jìn)展和發(fā)展路徑:泛化和開(kāi)源

Elad:Physical Intelligence 目前的研究方向是什么?

Chelsea Finn:我們的目標(biāo)是構(gòu)建一個(gè)大型神經(jīng)網(wǎng)絡(luò)模型,最終讓它能夠控制任何機(jī)器人,在任何場(chǎng)景下執(zhí)行任何任務(wù)。

我們的愿景與傳統(tǒng)機(jī)器人研究有很大不同。過(guò)去,機(jī)器人研究往往是深入專(zhuān)注于某一個(gè)特定的應(yīng)用場(chǎng)景,比如開(kāi)發(fā)一個(gè)機(jī)器人來(lái)執(zhí)行單一任務(wù)。然而,這種方法往往會(huì)讓研究局限在特定應(yīng)用里,一旦機(jī)器人被優(yōu)化到擅長(zhǎng)某個(gè)特定任務(wù),就很難再擴(kuò)展到其他任務(wù)。

我們想要解決的是更廣泛的物理智能問(wèn)題,并且我們是以長(zhǎng)期視角來(lái)看待這個(gè)問(wèn)題。我們特別關(guān)注泛化能力和通用機(jī)器人。

與其他機(jī)器人公司不同,我們認(rèn)為充分利用所有可能的數(shù)據(jù)是非常重要的。這不僅限于某一種特定的機(jī)器人數(shù)據(jù),而是要匯總來(lái)自各種不同機(jī)器人平臺(tái)的數(shù)據(jù),比如六軸機(jī)器人、七軸機(jī)器人、單臂機(jī)器人、雙臂機(jī)器人等。已經(jīng)有很多證據(jù)表明,不同機(jī)器人之間可以共享大量豐富的信息,能讓數(shù)據(jù)的價(jià)值最大化。

在這種情況下,如果對(duì)機(jī)器人硬件進(jìn)行迭代升級(jí),就不需要完全舍棄舊版本的數(shù)據(jù)。在過(guò)去,有一個(gè)痛點(diǎn)在于當(dāng)機(jī)器人升級(jí)換代時(shí),原本的策略就無(wú)法適配,需要重新訓(xùn)練模型,這個(gè)過(guò)程既費(fèi)時(shí)又費(fèi)力。而 Physical Intelligence 的目標(biāo)是打造通用機(jī)器人,并開(kāi)發(fā) foundation models,讓它們成為下一代機(jī)器人在現(xiàn)實(shí)世界中的智能驅(qū)動(dòng)力。

Elad:這在某種程度上與 LLM 有些相似。在 LLM,深度學(xué)習(xí)、Transformer 架構(gòu)以及規(guī)?;?xùn)練的結(jié)合,已經(jīng)證明了可以實(shí)現(xiàn)真正的通用性,并能夠在不同領(lǐng)域之間進(jìn)行不同形式的遷移。你們所采用的架構(gòu)或方法具體是什么?

Chelsea Finn:一開(kāi)始,我們主要是想擴(kuò)展數(shù)據(jù)收集規(guī)模。與語(yǔ)言領(lǐng)域不同的是,機(jī)器人領(lǐng)域并沒(méi)有類(lèi)似維基百科或者涵蓋機(jī)器人運(yùn)動(dòng)的“互聯(lián)網(wǎng)”可供利用。因此,我們對(duì)在真實(shí)環(huán)境下收集真實(shí)機(jī)器人的數(shù)據(jù)感到非常興奮。這種真實(shí)數(shù)據(jù)一直以來(lái)都是推動(dòng)機(jī)器學(xué)習(xí)進(jìn)步的重要因素。而一個(gè)關(guān)鍵點(diǎn)是,我們需要自己去收集這些數(shù)據(jù)。這意味著我們需要在物理世界中進(jìn)行機(jī)器人操作。雖然我們也在探索其他擴(kuò)展數(shù)據(jù)的方法,但核心仍然是擴(kuò)大真實(shí)機(jī)器人數(shù)據(jù)的規(guī)模。

去年十月底,我們發(fā)布了一些初步成果,展示了我們?cè)跀?shù)據(jù)擴(kuò)展方面的努力,以及如何讓機(jī)器人學(xué)習(xí)非常復(fù)雜的任務(wù),比如折疊衣物、清理桌面、搭建紙板箱等。

目前,我們思考的重點(diǎn)是如何讓機(jī)器人能夠進(jìn)行語(yǔ)言交互,并在不同環(huán)境中具備泛化能力。在去年十月的演示中,我們展示的機(jī)器人是在一個(gè)特定的環(huán)境中訓(xùn)練的,數(shù)據(jù)也是來(lái)自那個(gè)環(huán)境。雖然它能夠在一定程度上泛化,例如折疊它以前從未見(jiàn)過(guò)的短褲,但這種泛化能力仍然非常有限。

此外,用戶(hù)也無(wú)法與它進(jìn)行交互,除了訓(xùn)練數(shù)據(jù)中已有的一些基本指令外,無(wú)法讓它執(zhí)行新的任務(wù)。因此,我們目前的一個(gè)重要目標(biāo)是讓機(jī)器人能夠處理更多樣化的指令,并適應(yīng)更多不同的環(huán)境。

在架構(gòu)方面,我們采用了 Transformer,并且使用了 pre training 模型,特別是預(yù)訓(xùn)練的 Vision-Language Model,這使我們能夠利用互聯(lián)網(wǎng)中豐富的信息。幾年前,我們有一個(gè)研究結(jié)果表明,如果利用 Vision-Language Model,機(jī)器人可以執(zhí)行訓(xùn)練數(shù)據(jù)中從未包含過(guò)的任務(wù),但這些任務(wù)涉及的概念是存在于互聯(lián)網(wǎng)的數(shù)據(jù)中。

一個(gè)著名的例子是,你可以給機(jī)器人展示 Taylor Swift 的照片。雖然機(jī)器人從未在現(xiàn)實(shí)中“見(jiàn)過(guò)” Taylor Swift,但由于互聯(lián)網(wǎng)中有大量 Taylor Swift 的圖片,它可以利用這些信息以及 pre training 模型的權(quán)重來(lái)實(shí)現(xiàn)知識(shí)遷移,讓機(jī)器人執(zhí)行相應(yīng)的任務(wù)。

因此,我們并不是從零開(kāi)始,而是依托這些已有的知識(shí)進(jìn)行提升,這對(duì)整個(gè)研究有很大的幫助。

Elad:實(shí)現(xiàn)泛化的關(guān)鍵是什么?

Chelsea Finn:我認(rèn)為最重要的一點(diǎn)是獲取更多樣化的機(jī)器人數(shù)據(jù)。比如,在去年十月底的那個(gè)發(fā)布中,我們的數(shù)據(jù)是在三座建筑中收集的。而相比之下,互聯(lián)網(wǎng)上的語(yǔ)言模型和視覺(jué)模型所依賴(lài)的數(shù)據(jù)來(lái)源要廣泛得多,因?yàn)榫W(wǎng)絡(luò)上的圖片是由許多人拍攝的,文本是由許多人撰寫(xiě)的。因此,我們需要在更多不同的環(huán)境中采集數(shù)據(jù),涉及更多物體、更多任務(wù)。

擴(kuò)展數(shù)據(jù)的多樣性,而不僅僅是數(shù)據(jù)的數(shù)量,這是至關(guān)重要的。我們目前的重點(diǎn)工作之一就是讓我們的機(jī)器人進(jìn)入更多不同的場(chǎng)景,并在這些環(huán)境中采集數(shù)據(jù)。與此同時(shí),這也會(huì)帶來(lái)一個(gè)非常有價(jià)值的副產(chǎn)品——我們可以學(xué)習(xí)到如何讓機(jī)器人在各種不同環(huán)境中真正運(yùn)行并發(fā)揮作用。如果我們想要讓機(jī)器人在現(xiàn)實(shí)世界中真正使用,這一點(diǎn)至關(guān)重要。

除此之外,我們也在探索其他方向,比如利用人類(lèi)的視頻數(shù)據(jù)、從網(wǎng)絡(luò)中獲取數(shù)據(jù)、使用 pre training 模型,并思考推理能力的應(yīng)用,盡管目前更多是一些基礎(chǔ)的推理。

? 比如把一件臟衣服放進(jìn)洗衣籃,機(jī)器人需要能夠識(shí)別衣服和洗衣籃在哪里,以及完成這個(gè)任務(wù)需要執(zhí)行的操作。

? 比如要制作一個(gè)三明治,而用戶(hù)對(duì)腌黃瓜過(guò)敏,那么機(jī)器人應(yīng)該能夠推理出不應(yīng)該在三明治里放腌黃瓜。

總的來(lái)說(shuō),最重要的仍然是獲取更豐富多樣的機(jī)器人數(shù)據(jù)。

Elad:開(kāi)源會(huì)是 PI 的長(zhǎng)期發(fā)展路徑嗎?

Chelsea Finn:我們一直非常開(kāi)放,開(kāi)源是我們有意識(shí)的選擇。我們不僅開(kāi)源了一些模型的權(quán)重,還發(fā)布了技術(shù)細(xì)節(jié)和論文,甚至還與硬件公司合作,向它們提供機(jī)器人設(shè)計(jì)。

首先,我們認(rèn)為這個(gè)領(lǐng)域還處于起步階段,這些模型在未來(lái) 1-3 年內(nèi)會(huì)變得更加強(qiáng)大,機(jī)器人也會(huì)變得更加強(qiáng)大。我們希望支持研究發(fā)展,支持社區(qū),支持機(jī)器人技術(shù),這樣當(dāng)我們最終開(kāi)發(fā)出通用模型技術(shù)時(shí),整個(gè)世界會(huì)更好地為它做好準(zhǔn)備,屆時(shí)會(huì)有更強(qiáng)大的機(jī)器人能夠利用這些模型,也會(huì)有更多具備相關(guān)專(zhuān)業(yè)知識(shí)的人理解如何使用這些模型。

其次,我們擁有一支非常優(yōu)秀的研究人員和工程師團(tuán)隊(duì),而頂尖的研究人員和工程師更希望加入開(kāi)放的公司,尤其是研究人員,他們希望自己的研究成果能夠得到認(rèn)可,并且能夠分享和討論他們的想法。吸引最優(yōu)秀的研究人員和工程師是解決機(jī)器人問(wèn)題的關(guān)鍵。

最后,選擇開(kāi)源的最大風(fēng)險(xiǎn)在于可能無(wú)法成功。我并不擔(dān)心競(jìng)爭(zhēng)對(duì)手,我更擔(dān)心的是最終沒(méi)有人能解決機(jī)器人問(wèn)題。

機(jī)器人技術(shù)非常困難,過(guò)去也有很多失敗的案例。與在圖像中識(shí)別物體不同,機(jī)器人操作幾乎沒(méi)有容錯(cuò)空間。比如,機(jī)器人與物體的接觸距離非常小的時(shí)候,一點(diǎn)點(diǎn)差距可能就會(huì)對(duì)結(jié)果產(chǎn)生巨大影響,會(huì)決定機(jī)器人能否成功操作這個(gè)物體。收集數(shù)據(jù)的挑戰(zhàn)也是如此,任何涉及硬件的事情都很困難。

03.機(jī)器人怎么實(shí)現(xiàn) AGI?

Elad:物理智能會(huì)在哪些領(lǐng)域產(chǎn)生最直接的影響,這些新方法什么時(shí)候能夠真正實(shí)現(xiàn)突破?

Chelsea Finn:Physical Intelligence 非常關(guān)注機(jī)器人的長(zhǎng)期問(wèn)題,而不是某一個(gè)特定的應(yīng)用,專(zhuān)注于單一應(yīng)用可能會(huì)帶來(lái)很多失敗的風(fēng)險(xiǎn)。我不確定物理智能的第一個(gè)應(yīng)用場(chǎng)景會(huì)在哪里。

在機(jī)器學(xué)習(xí)領(lǐng)域,有很多成功的應(yīng)用,比如推薦系統(tǒng)、語(yǔ)言模型、圖像檢測(cè)等,模型的輸出最終會(huì)被人類(lèi)使用,人類(lèi)可以進(jìn)行檢驗(yàn),因?yàn)槿祟?lèi)通常是擅長(zhǎng)檢驗(yàn)的。很多機(jī)器人非常自然的應(yīng)用場(chǎng)景是機(jī)器人獨(dú)立自主地做某些事情,而不是接收人類(lèi)給出的指令,比如給定手臂的目標(biāo)位置,之后人類(lèi)再進(jìn)行檢驗(yàn)。因此,我們需要思考一些新的方法來(lái)應(yīng)對(duì)允許錯(cuò)誤的場(chǎng)景,或者是人類(lèi)和機(jī)器人可以合作的場(chǎng)景。

這是一個(gè)大挑戰(zhàn)。Physical Intelligence 一直在嘗試部署這些機(jī)器人技術(shù),我們做的語(yǔ)言交互工作其實(shí)就是受到這個(gè)挑戰(zhàn)的推動(dòng)。人類(lèi)能夠提供輸入是非常重要的,比如人類(lèi)希望機(jī)器人如何表現(xiàn)、希望機(jī)器人做什么、希望機(jī)器人如何幫助完成某件事。

Elad:如何看待人形機(jī)器人與非人形機(jī)器人之間的差異?

Chelsea Finn:人形機(jī)器人真的很酷,但有些被高估了。從實(shí)際角度來(lái)看,我們現(xiàn)在在數(shù)據(jù)方面確實(shí)有瓶頸。一些人認(rèn)為人形機(jī)器人可能更容易收集數(shù)據(jù),因?yàn)樗鼈兎先祟?lèi)的形態(tài),可能會(huì)更容易模仿人類(lèi)。但如果你曾經(jīng)嘗試過(guò)遠(yuǎn)程操作人形機(jī)器人,你會(huì)發(fā)現(xiàn)操作人形機(jī)器人比操作一個(gè)靜態(tài)操控器或者一個(gè)帶輪子的移動(dòng)操控器要困難得多。

優(yōu)化數(shù)據(jù)收集非常重要,如果能達(dá)到一個(gè)超過(guò)需求的數(shù)據(jù)量程度,那么剩下的就只是研究、計(jì)算和評(píng)估的問(wèn)題了。我們正在優(yōu)化這個(gè)方向,這也是我們目前優(yōu)化的目標(biāo)之一。我們使用便宜的機(jī)器人,使用我們能夠非常輕松地開(kāi)發(fā)遠(yuǎn)程操作接口的機(jī)器人,這樣就可以快速進(jìn)行遠(yuǎn)程操作,并收集多樣化的大量數(shù)據(jù)。

Elad:怎么看待具身智能模型的開(kāi)發(fā)與非具身智能模型開(kāi)發(fā)之間的區(qū)別?

Chelsea Finn:人們低估了運(yùn)動(dòng)控制中所包含的智能。我們能夠像現(xiàn)在這樣使用雙手,是經(jīng)過(guò)了多年的進(jìn)化。而有許多動(dòng)物,即便經(jīng)歷了如此長(zhǎng)時(shí)間的進(jìn)化,也無(wú)法做到這一點(diǎn)。因此,能夠做一些非?;A(chǔ)的事情,比如做一碗麥片或者倒一杯水,實(shí)際上蘊(yùn)含著極大的復(fù)雜性和智能。所以,從某種程度上來(lái)說(shuō),具身智能或物理智能是智能的核心。

Elad:在過(guò)去兩三年里,哪些研究促使人們覺(jué)得機(jī)器人到了一個(gè)轉(zhuǎn)折點(diǎn)?

Chelsea Finn:有幾個(gè)因素讓我們覺(jué)得這個(gè)領(lǐng)域的進(jìn)展比之前更快了。

第一個(gè)是 SayCan,可以利用語(yǔ)言模型對(duì)高層部分進(jìn)行規(guī)劃,再與低層模型結(jié)合,以便讓機(jī)器人完成長(zhǎng)時(shí)間的任務(wù)。

第二個(gè)是 RG2,能夠?qū)崿F(xiàn)前文所說(shuō)的 Taylor Swift 的例子,RG2 能夠?qū)⒋罅康木W(wǎng)頁(yè)數(shù)據(jù)集成進(jìn)來(lái),從而提高機(jī)器人的泛化能力。

第三個(gè)是 RT-X,能夠跨不同的機(jī)器人形態(tài)訓(xùn)練模型。重要的是,我們可以將各個(gè)研究實(shí)驗(yàn)室的數(shù)據(jù)整合到一個(gè)通用格式,并在此基礎(chǔ)上進(jìn)行訓(xùn)練。

在訓(xùn)練時(shí),我們發(fā)現(xiàn)可以將一個(gè)模型的 checkpoint 發(fā)送到另一個(gè)實(shí)驗(yàn)室,即使距離很遠(yuǎn),那個(gè)實(shí)驗(yàn)室的研究生也可以在機(jī)器人上運(yùn)行這個(gè) checkpoint,且大多數(shù)情況下,結(jié)果比他們自己在實(shí)驗(yàn)室里單獨(dú)迭代出的模型要好。這是一個(gè)重要的標(biāo)志,說(shuō)明這些技術(shù)開(kāi)始真正起作用,通過(guò)匯總來(lái)自不同機(jī)器人的數(shù)據(jù),的確能夠帶來(lái)益處。

checkpoint 是指在模型訓(xùn)練過(guò)程中保存模型當(dāng)前狀態(tài)的快照,通常包含模型的權(quán)重、優(yōu)化器的狀態(tài)以及其他訓(xùn)練相關(guān)的參數(shù)。

還有 Aloha 和 Mobile ALOHA,實(shí)現(xiàn)了遠(yuǎn)程操作來(lái)訓(xùn)練模型,使機(jī)器人完成相對(duì)復(fù)雜的精巧操作任務(wù)。我們還做了一個(gè)后續(xù)的關(guān)于系鞋帶的項(xiàng)目。

當(dāng)我們啟動(dòng) PI 時(shí),也是對(duì)其他人發(fā)出了信號(hào)——如果專(zhuān)家們真的愿意在這個(gè)領(lǐng)域下注,那也許真的會(huì)有一些變化。

04.Hi Robot 是什么?

Elad:PI 最近推出了分層交互機(jī)器人,即 Hi Robot,這是怎么考慮的?

Chelsea Finn:我們?cè)噲D關(guān)注兩個(gè)方面。第一,如果一個(gè)任務(wù)需要較長(zhǎng)時(shí)間才能完成,即可能需要花費(fèi)幾分鐘,那么僅依賴(lài)單一策略,即從圖像直接輸出動(dòng)作,可能并不高效。比如在制作三明治的過(guò)程中,如果策略只是逐步輸出下一個(gè)運(yùn)動(dòng)指令,而不考慮整個(gè)任務(wù)的整體規(guī)劃,那么效果可能不如通過(guò)真正推理和規(guī)劃來(lái)完成所有步驟來(lái)得更好。

第二,我們希望機(jī)器人不僅僅能執(zhí)行基本指令,比如折疊衣服、拿起杯子,而是能夠與人類(lèi)互動(dòng)。例如人類(lèi)可以告訴機(jī)器人自己是一個(gè)素食主義者,要求機(jī)器人做一個(gè)三明治,不要加泡菜,或者中途要求機(jī)器人暫停放番茄。處理這些類(lèi)型的提示、進(jìn)行現(xiàn)場(chǎng)調(diào)整等,和僅僅執(zhí)行基本指令之間有很大的差距。

因此,我們開(kāi)發(fā)了一個(gè)系統(tǒng),有一個(gè)模型來(lái)接收提示并進(jìn)行推理,能夠輸出機(jī)器人應(yīng)該執(zhí)行的下一步,比如告訴機(jī)器人下一步去“拿起番茄”,然后有一個(gè)低層次的模型,將“拿起番茄”作為輸入,輸出下一個(gè)半秒內(nèi)的命令。

這個(gè)項(xiàng)目非常有趣,我們讓機(jī)器人做了一個(gè)三明治,還做了購(gòu)物和清理桌子。我最初對(duì)它感到興奮,是因?yàn)榭吹綑C(jī)器人能夠響應(yīng)不同的提示并完成這些具有挑戰(zhàn)性的任務(wù),而且, 它似乎是一種正確的方法。

05.機(jī)器人需要哪些感官?

Elad:機(jī)器人的傳感器現(xiàn)在處于什么階段?

Chelsea Finn:如果僅僅依靠視覺(jué),甚至僅使用 RGB 圖像,我們已經(jīng)走得很遠(yuǎn)了。我們通常會(huì)有一個(gè)或多個(gè)外部的基礎(chǔ)攝像頭來(lái)觀察場(chǎng)景,并且還會(huì)在機(jī)器人的每個(gè)手腕上安裝攝像頭。我們可以通過(guò)這些設(shè)備取得很好的效果。

如果我們能給機(jī)器人裝上“皮膚”就更好了,但目前市面上的觸覺(jué)傳感器要么不如皮膚那么耐用,要么成本過(guò)高,或者分辨率非常低。所以,在硬件方面有很多挑戰(zhàn)。實(shí)際上將 RGB 攝像頭安裝在手腕上非常有幫助,可能能提供與觸覺(jué)傳感器相似的很多信息。

Elad:在機(jī)器人領(lǐng)域,需要多少傳感器?哪些是必要的,哪些可能不需要?

Chelsea Finn:比如做三明治,你可能希望機(jī)器人能夠“品嘗”一下三明治,看看是不是好吃,或者至少能聞到味道。我過(guò)去曾多次向 Sergey Levine 提出過(guò)“嗅覺(jué)”這個(gè)觀點(diǎn),因?yàn)樾嵊X(jué)確實(shí)有很多好處。

從某種角度來(lái)看,傳感器有冗余性是很好的。比如音頻,當(dāng)人類(lèi)聽(tīng)到某個(gè)意外的聲音時(shí),實(shí)際上可以在許多情況下提醒你注意到某些事情,盡管你可能已經(jīng)通過(guò)其他傳感器看到了某個(gè)物體掉落。這樣的冗余性可以增強(qiáng)系統(tǒng)的魯棒性。

但對(duì)我們來(lái)說(shuō),現(xiàn)在并不是優(yōu)先考慮這些傳感器的時(shí)機(jī),因?yàn)楫?dāng)前的瓶頸并不在于傳感器,而是在數(shù)據(jù)處理,尤其是在架構(gòu)等方面。

目前我們的機(jī)器人策略沒(méi)有記憶,機(jī)器人只看當(dāng)前的圖像,甚至無(wú)法記住半秒鐘前發(fā)生的事情。所以,我寧愿先在我們的模型中加入記憶功能,而不是添加其他傳感器。在沒(méi)有其他傳感器的情況下,我們也能夠?yàn)樵S多應(yīng)用場(chǎng)景開(kāi)發(fā)出商業(yè)可行的機(jī)器人。

06.類(lèi)比自動(dòng)駕駛,機(jī)器人和機(jī)器人公司會(huì)如何發(fā)展?

Elad:和自動(dòng)駕駛相比,機(jī)器人未來(lái)發(fā)展的時(shí)間線大概是怎么樣的?

Chelsea Finn:我不知道。自動(dòng)駕駛和機(jī)器人技術(shù)各有難易之處。一方面,機(jī)器人更難,因?yàn)槭且粋€(gè)更高維度的空間,即使是靜態(tài)機(jī)器人也有 14 個(gè)維度,每只手臂有 7 個(gè)維度。在很多情況下,需要比自動(dòng)駕駛有更高的精確度。我們也沒(méi)有一開(kāi)始就擁有那么多的數(shù)據(jù)。

另一方面,自動(dòng)駕駛必須解決整個(gè)分布問(wèn)題,才能讓任何技術(shù)具備可行性,必須能夠處理任何時(shí)間段的交叉路口、各種行人情景以及其他車(chē)輛等。而在機(jī)器人技術(shù)中,有很多商業(yè)應(yīng)用場(chǎng)景不需要處理這么大的分布問(wèn)題,也沒(méi)有那么大的安全風(fēng)險(xiǎn),而且自動(dòng)駕駛領(lǐng)域的結(jié)果非常令人鼓舞,尤其是舊金山 Waymo 車(chē)輛數(shù)量的增加。

Elad:類(lèi)比自動(dòng)駕駛的發(fā)展,現(xiàn)在的機(jī)器人公司會(huì)如何發(fā)展?大公司做機(jī)器人是否有優(yōu)勢(shì)呢?

Chelsea Finn:最近有很多新玩家進(jìn)入機(jī)器人領(lǐng)域。

10 年前,做自動(dòng)駕駛可能為時(shí)過(guò)早,但自那時(shí)以來(lái),深度學(xué)習(xí)取得了很大的進(jìn)展。機(jī)器人領(lǐng)域也是如此,如果是在 10 年前,甚至 5 年前,我覺(jué)得也太早,當(dāng)時(shí)的技術(shù)并不成熟,或許現(xiàn)在仍然有些早。

自動(dòng)駕駛的難度已經(jīng)證明了在物理世界中構(gòu)建智能是多么困難。

我非常喜歡初創(chuàng)公司的環(huán)境,我在 Google 遇到過(guò)非常困難的事情,比如考慮到代碼安全,帶著機(jī)器人離開(kāi)校園幾乎是完全不可行的。但如果想收集多樣化的數(shù)據(jù),把機(jī)器人帶出校園是很有價(jià)值的。而在初創(chuàng)公司中,你可以更快地行動(dòng),因?yàn)槟銢](méi)有那些限制和繁瑣的程序。大公司雖然有大量資本,可以支撐得更久,但行動(dòng)會(huì)更慢。

對(duì)于初創(chuàng)公司的創(chuàng)始人而言,快速部署、快速學(xué)習(xí)和快速迭代可能是最重要的,而且要盡量去開(kāi)發(fā),真正讓機(jī)器人走到市場(chǎng)上, 并從中學(xué)習(xí)。

07.對(duì)訓(xùn)練數(shù)據(jù)和硬件的看法

Elad:怎么看待將人的觀察數(shù)據(jù)作為機(jī)器人訓(xùn)練集的一部分,這些數(shù)據(jù)可能來(lái)自 YouTube,或者是專(zhuān)門(mén)錄制的內(nèi)容。

Chelsea Finn:這些數(shù)據(jù)確實(shí)有很大價(jià)值,但僅憑這些數(shù)據(jù)并不能走得太遠(yuǎn)。

例如,你觀看奧運(yùn)游泳運(yùn)動(dòng)員比賽,即使你有運(yùn)動(dòng)員的體力,但運(yùn)動(dòng)員訓(xùn)練自己的肌肉來(lái)完成動(dòng)作的經(jīng)驗(yàn)也是至關(guān)重要的。

例如,你試圖學(xué)習(xí)如何打好網(wǎng)球,但僅僅通過(guò)觀看專(zhuān)業(yè)選手,是無(wú)法學(xué)會(huì)的。

人類(lèi)在低級(jí)別的運(yùn)動(dòng)控制方面已經(jīng)是專(zhuān)家,但機(jī)器人并不是這樣。機(jī)器人實(shí)際上需要從自身的身體經(jīng)驗(yàn)中來(lái)學(xué)習(xí)。所以,能夠利用這種數(shù)據(jù)形式,尤其是擴(kuò)展機(jī)器人自己的經(jīng)驗(yàn),是非常有前景的。但要真正取得進(jìn)展,關(guān)鍵還是要有來(lái)自機(jī)器人本身的數(shù)據(jù)。

Elad:這些數(shù)據(jù)是你為機(jī)器人生成的通用數(shù)據(jù),還是你讓機(jī)器人模仿某些活動(dòng)?

Chelsea Finn:當(dāng)我們收集數(shù)據(jù)時(shí),機(jī)器人有點(diǎn)像牽線木偶,我們可以記錄機(jī)器人實(shí)際的運(yùn)動(dòng)指令和傳感器數(shù)據(jù),比如攝像頭圖像,這就是機(jī)器人的“經(jīng)驗(yàn)”。

自動(dòng)化經(jīng)驗(yàn)將發(fā)揮巨大作用,就像在語(yǔ)言模型中那樣。得到一個(gè)初步的語(yǔ)言模型后,如果能通過(guò)強(qiáng)化學(xué)習(xí)讓機(jī)器人基于自己的經(jīng)驗(yàn)自我啟動(dòng),那將是非常有價(jià)值的。

Elad:哪些數(shù)據(jù)是可泛化的?

Chelsea Finn:數(shù)據(jù)是否可泛化關(guān)鍵在于分布廣度(the breadth of the distribution)。

雖然很難量化或衡量機(jī)器人的經(jīng)驗(yàn)有多廣泛,也沒(méi)有辦法將任務(wù)的廣度進(jìn)行分類(lèi),比如一個(gè)任務(wù)與另一個(gè)任務(wù)有多大不同,一個(gè)廚房與另一個(gè)廚房有多大差異之類(lèi)的,但至少可以通過(guò)觀察建筑物數(shù)量或場(chǎng)景數(shù)量等因素,粗略了解這種廣度。

Elad:隨著機(jī)器人技術(shù)的發(fā)展,未來(lái)機(jī)器人是會(huì)有一個(gè)單一的形式,還是會(huì)有幾個(gè)不同的形式,從而形成一個(gè)豐富的生態(tài)系統(tǒng)?

Chelsea Finn:我的猜測(cè)是會(huì)有很多不同的機(jī)器人平臺(tái),各種各樣的機(jī)器人硬件類(lèi)型會(huì)涌現(xiàn)出來(lái),我和 Sergey Levine 將其稱(chēng)為“寒武紀(jì)大爆發(fā)”。只要我們擁有可以支持這些不同機(jī)器人的技術(shù)和智能,就像廚房里有各種不同的設(shè)備,各自能做不同的事情,而不是只有一個(gè)設(shè)備能做所有事情。

可以想象一個(gè)這樣的世界:有一種機(jī)器人手臂可以在廚房里做事,它的硬件專(zhuān)門(mén)針對(duì)廚房工作進(jìn)行了優(yōu)化,并且可能還會(huì)優(yōu)化成對(duì)于這個(gè)特定用途而言更便宜,還有其他硬件可能設(shè)計(jì)用于折疊衣物、洗碗等。

Elad:在 The Diamond Age 這本書(shū)中,呈現(xiàn)了一種觀點(diǎn):物質(zhì)通過(guò)管道進(jìn)入家庭,家庭用 3D 打印機(jī)來(lái)制作一切,比如你下載圖紙,然后 3D 打印出物品。還有一些人可能會(huì)修改設(shè)計(jì),選擇性?xún)?yōu)化某些功能來(lái)改進(jìn)產(chǎn)品。這樣的未來(lái)有可能實(shí)現(xiàn)嗎?

Chelsea Finn:這樣的世界是非??赡艿?。如果針對(duì)某個(gè)特定的使用場(chǎng)景來(lái)優(yōu)化硬件,是可以制造出更便宜的硬件的。而且這樣的硬件可能也會(huì)更快、效率更高等。但實(shí)際實(shí)現(xiàn)起來(lái)是非常困難的。

Elad:預(yù)測(cè)未來(lái)趨勢(shì)確實(shí)非常困難。我之所以認(rèn)為硬件平臺(tái)的數(shù)量會(huì)減少,其中一個(gè)原因就是供應(yīng)鏈問(wèn)題。大規(guī)模生產(chǎn)硬件組件可以降低成本,因此最終市場(chǎng)上的硬件平臺(tái)可能會(huì)收縮,變成更少但更具規(guī)模效應(yīng)的選擇。

除非某些硬件平臺(tái)在成本上有顯著的優(yōu)勢(shì),否則企業(yè)更傾向于生產(chǎn)更少種類(lèi)的硬件,因?yàn)檫@樣更容易擴(kuò)展、復(fù)制,并且制造成本更低。從硬件行業(yè)的角度來(lái)看,這是一個(gè)常見(jiàn)的邏輯。因此,在“多樣化硬件平臺(tái)”與“規(guī)?;?、低成本生產(chǎn)”之間的權(quán)衡,是一個(gè)值得思考的問(wèn)題。

Chelsea Finn:我們可能會(huì)有機(jī)器人出現(xiàn)在供應(yīng)鏈中,能夠制造任何想要的定制設(shè)備。

Elad:未來(lái),機(jī)器人將無(wú)處不在。

編譯:haozhen 編輯:Siqi

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
16784人已学习12篇文章
分销是互联网拉人头和推广的常用手段,能够在短时间内实现裂变营销。本专题的文章分享了分销体系设计指南。
专题
12775人已学习14篇文章
良好的交互规范可以很好的帮助企业、团队提高产出,保证用户体验。本专题的文章分享了交互规范指南。
专题
12705人已学习13篇文章
产品经理在日常工作中,除了要跟进和把控产品的整体流程以外,也要对产品后续的销售策略进行规划;销售策略的规划可以让产品经理对于用户的场景以及体验等更加熟悉。本专题的文章分享了产品的销售策略。
专题
12058人已学习12篇文章
电商平台,是兼具媒体和消费场景两大属性的平台,因此衍生出了多种营销模式。本专题的文章分享了电商如何做营销。
专题
14950人已学习14篇文章
RBAC是一套成熟的权限模型,在传统权限模型中,我们直接把权限赋予用户。而在RBAC中,首先把权限赋予角色,再把角色赋予用户。本专题的文章分享了基于RBAC模型的权限设计。
专题
80136人已学习19篇文章
当AI已然成为新的焦点和风口,产品经理该如何抓住这个风口顺势飞起?