91在线区啪国自产网页,国产超爽人人爽人人做,aⅴ无码天堂av

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

Physical Intelligence 創(chuàng)始人：人形機(jī)器人被高估了

海外獨(dú)角獸

2025-04-03

0 評(píng)論 1224 瀏覽 0 收藏

🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

在人工智能和機(jī)器人技術(shù)飛速發(fā)展的今天，人形機(jī)器人成為了科技界的熱門(mén)話題。然而，Physical Intelligence（PI）的創(chuàng)始人Chelsea Finn卻認(rèn)為，人形機(jī)器人目前被高估了。本文通過(guò)與Chelsea Finn的對(duì)話，深入探討了機(jī)器人領(lǐng)域的最新進(jìn)展、泛化能力的重要性、數(shù)據(jù)多樣性的關(guān)鍵作用，以及PI公司的發(fā)展方向。

AI Robotics 是我們長(zhǎng)期關(guān)注的賽道之一，通用機(jī)器人是 AGI 從數(shù)字世界走向物理世界的重要路徑，而 robot foundation model 要做的就是給機(jī)器人構(gòu)建一個(gè)大腦，從軟件角度實(shí)現(xiàn)機(jī)器人的通用能力。在 AI robotcis 的主題下，Physical Intelligence 是我們最為關(guān)注的公司之一。

PI 被視為是機(jī)器人領(lǐng)域的 OpenAI，是所有機(jī)器人公司中 research 水平和人才密度最高的團(tuán)隊(duì)，團(tuán)隊(duì)的核心目標(biāo)是開(kāi)發(fā)通用機(jī)器人的 foundation model，今年 2 月，PI 開(kāi)源了通用模型 π0 的代碼和權(quán)重，2 月 26 日，PI 又推出了 Hi Robot，能夠?qū)?π0 等VLA 模型納入一個(gè)分層推理過(guò)程。

本篇內(nèi)容是我們對(duì) PI 核心創(chuàng)始人 Chelsea Finn 最新觀點(diǎn)的編譯理解。圍繞 π0 和 Hi Robot，Chelsea Finn 分享了機(jī)器人是如何實(shí)現(xiàn)泛化？她認(rèn)為，數(shù)據(jù)人就是關(guān)鍵中的關(guān)鍵，并且一定要獲取更多樣化的機(jī)器人數(shù)據(jù)，而不僅僅只關(guān)注數(shù)據(jù)的質(zhì)量，最終的目標(biāo)是擴(kuò)大真實(shí)機(jī)器人數(shù)據(jù)的規(guī)模。

同時(shí)，Chelsea Finn 也理性地認(rèn)為，雖然人形機(jī)器人這個(gè)形態(tài)很酷，但當(dāng)下，人形機(jī)器人被高估了。要實(shí)現(xiàn)機(jī)器人領(lǐng)域的 AGI，物理智能才是核心，未來(lái)一定會(huì)有各種各樣的機(jī)器人形態(tài)，PI 內(nèi)部將機(jī)器人的 AGI 時(shí)刻定義為“寒武紀(jì)大爆發(fā)”。

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

查看详情 >

?? 目錄 ??

01 Chelsea Finn 機(jī)器研究的開(kāi)端

02 PI 的研究進(jìn)展和發(fā)展03 機(jī)器人怎么實(shí)現(xiàn) AGI？

04 Hi Robot

05 機(jī)器人需要哪些感官？

06 自動(dòng)駕駛 VS 機(jī)器人領(lǐng)域

07 對(duì)訓(xùn)練數(shù)據(jù)和硬件的看法

01. Chelsea Finn 是如何進(jìn)入機(jī)器人領(lǐng)域的？

Elad：你是如何進(jìn)入機(jī)器人領(lǐng)域的，最初是什么吸引了你？

Chelsea Finn：一開(kāi)始，我對(duì)機(jī)器人可能帶來(lái)的影響感到非常興奮。與此同時(shí)，我也對(duì)發(fā)展感知和智能的問(wèn)題非常著迷，機(jī)器人體現(xiàn)了這一切。有時(shí)候這個(gè)領(lǐng)域涉及到一些有趣的數(shù)學(xué)問(wèn)題，能讓大腦保持活躍，不斷思考。這些都是從事這個(gè)領(lǐng)域很有趣的地方。

我真正開(kāi)始認(rèn)真研究機(jī)器人大概是在 10 多年前，當(dāng)時(shí)我剛開(kāi)始在伯克利攻讀博士。我們當(dāng)時(shí)在做神經(jīng)網(wǎng)絡(luò)控制，試圖訓(xùn)練神經(jīng)網(wǎng)絡(luò)，使得圖像像素可以直接映射到機(jī)器人手臂的扭矩。在當(dāng)時(shí)，這種方法還不太流行。但如今，這個(gè)方向已經(jīng)取得了巨大進(jìn)展，在機(jī)器人領(lǐng)域受到了更多認(rèn)可，也讓越來(lái)越多的人感到興奮。

從那個(gè)時(shí)候開(kāi)始，我就很清楚，我們可以訓(xùn)練機(jī)器人完成一些很酷的任務(wù)。但真正的挑戰(zhàn)在于，如何讓機(jī)器人在不同環(huán)境、面對(duì)不同物體時(shí)都能完成這些任務(wù)。10 年前，我們訓(xùn)練機(jī)器人去擰緊瓶蓋、用鏟子把物體放進(jìn)碗里、精準(zhǔn)地插入物體，或者把衣架掛到衣架桿上。這些任務(wù)本身已經(jīng)很酷了，但讓機(jī)器人在不同環(huán)境、面對(duì)不同物體時(shí)都能執(zhí)行這些任務(wù)，才是真正的難點(diǎn)。

因此，我一直在思考如何構(gòu)建更廣泛的數(shù)據(jù)集，如何基于這些數(shù)據(jù)集進(jìn)行訓(xùn)練，以及有哪些不同的學(xué)習(xí)方法，比如強(qiáng)化學(xué)習(xí)、視頻預(yù)測(cè)、模仿學(xué)習(xí)等。我在博士期間和加入斯坦福之前，曾在 Google Brain 工作了一段時(shí)間。后來(lái)，我成為了斯坦福大學(xué)的教授，在那里建立了自己的實(shí)驗(yàn)室，并在這些方向上做了大量研究。

大約一年前，我與合伙人們共同創(chuàng)立了 Physical Intelligence，希望能夠真正實(shí)現(xiàn)我們的愿景。我為此離開(kāi)了斯坦福大學(xué)，但我仍然在斯坦福指導(dǎo)學(xué)生。

02.PI 的研究進(jìn)展和發(fā)展路徑：泛化和開(kāi)源

Elad：Physical Intelligence 目前的研究方向是什么？

Chelsea Finn：我們的目標(biāo)是構(gòu)建一個(gè)大型神經(jīng)網(wǎng)絡(luò)模型，最終讓它能夠控制任何機(jī)器人，在任何場(chǎng)景下執(zhí)行任何任務(wù)。

我們的愿景與傳統(tǒng)機(jī)器人研究有很大不同。過(guò)去，機(jī)器人研究往往是深入專(zhuān)注于某一個(gè)特定的應(yīng)用場(chǎng)景，比如開(kāi)發(fā)一個(gè)機(jī)器人來(lái)執(zhí)行單一任務(wù)。然而，這種方法往往會(huì)讓研究局限在特定應(yīng)用里，一旦機(jī)器人被優(yōu)化到擅長(zhǎng)某個(gè)特定任務(wù)，就很難再擴(kuò)展到其他任務(wù)。

我們想要解決的是更廣泛的物理智能問(wèn)題，并且我們是以長(zhǎng)期視角來(lái)看待這個(gè)問(wèn)題。我們特別關(guān)注泛化能力和通用機(jī)器人。

與其他機(jī)器人公司不同，我們認(rèn)為充分利用所有可能的數(shù)據(jù)是非常重要的。這不僅限于某一種特定的機(jī)器人數(shù)據(jù)，而是要匯總來(lái)自各種不同機(jī)器人平臺(tái)的數(shù)據(jù)，比如六軸機(jī)器人、七軸機(jī)器人、單臂機(jī)器人、雙臂機(jī)器人等。已經(jīng)有很多證據(jù)表明，不同機(jī)器人之間可以共享大量豐富的信息，能讓數(shù)據(jù)的價(jià)值最大化。

在這種情況下，如果對(duì)機(jī)器人硬件進(jìn)行迭代升級(jí)，就不需要完全舍棄舊版本的數(shù)據(jù)。在過(guò)去，有一個(gè)痛點(diǎn)在于當(dāng)機(jī)器人升級(jí)換代時(shí)，原本的策略就無(wú)法適配，需要重新訓(xùn)練模型，這個(gè)過(guò)程既費(fèi)時(shí)又費(fèi)力。而 Physical Intelligence 的目標(biāo)是打造通用機(jī)器人，并開(kāi)發(fā) foundation models，讓它們成為下一代機(jī)器人在現(xiàn)實(shí)世界中的智能驅(qū)動(dòng)力。

Elad：這在某種程度上與 LLM 有些相似。在 LLM，深度學(xué)習(xí)、Transformer 架構(gòu)以及規(guī)?；?xùn)練的結(jié)合，已經(jīng)證明了可以實(shí)現(xiàn)真正的通用性，并能夠在不同領(lǐng)域之間進(jìn)行不同形式的遷移。你們所采用的架構(gòu)或方法具體是什么？

Chelsea Finn：一開(kāi)始，我們主要是想擴(kuò)展數(shù)據(jù)收集規(guī)模。與語(yǔ)言領(lǐng)域不同的是，機(jī)器人領(lǐng)域并沒(méi)有類(lèi)似維基百科或者涵蓋機(jī)器人運(yùn)動(dòng)的“互聯(lián)網(wǎng)”可供利用。因此，我們對(duì)在真實(shí)環(huán)境下收集真實(shí)機(jī)器人的數(shù)據(jù)感到非常興奮。這種真實(shí)數(shù)據(jù)一直以來(lái)都是推動(dòng)機(jī)器學(xué)習(xí)進(jìn)步的重要因素。而一個(gè)關(guān)鍵點(diǎn)是，我們需要自己去收集這些數(shù)據(jù)。這意味著我們需要在物理世界中進(jìn)行機(jī)器人操作。雖然我們也在探索其他擴(kuò)展數(shù)據(jù)的方法，但核心仍然是擴(kuò)大真實(shí)機(jī)器人數(shù)據(jù)的規(guī)模。

去年十月底，我們發(fā)布了一些初步成果，展示了我們?cè)跀?shù)據(jù)擴(kuò)展方面的努力，以及如何讓機(jī)器人學(xué)習(xí)非常復(fù)雜的任務(wù)，比如折疊衣物、清理桌面、搭建紙板箱等。

目前，我們思考的重點(diǎn)是如何讓機(jī)器人能夠進(jìn)行語(yǔ)言交互，并在不同環(huán)境中具備泛化能力。在去年十月的演示中，我們展示的機(jī)器人是在一個(gè)特定的環(huán)境中訓(xùn)練的，數(shù)據(jù)也是來(lái)自那個(gè)環(huán)境。雖然它能夠在一定程度上泛化，例如折疊它以前從未見(jiàn)過(guò)的短褲，但這種泛化能力仍然非常有限。

此外，用戶(hù)也無(wú)法與它進(jìn)行交互，除了訓(xùn)練數(shù)據(jù)中已有的一些基本指令外，無(wú)法讓它執(zhí)行新的任務(wù)。因此，我們目前的一個(gè)重要目標(biāo)是讓機(jī)器人能夠處理更多樣化的指令，并適應(yīng)更多不同的環(huán)境。

在架構(gòu)方面，我們采用了 Transformer，并且使用了 pre training 模型，特別是預(yù)訓(xùn)練的 Vision-Language Model，這使我們能夠利用互聯(lián)網(wǎng)中豐富的信息。幾年前，我們有一個(gè)研究結(jié)果表明，如果利用 Vision-Language Model，機(jī)器人可以執(zhí)行訓(xùn)練數(shù)據(jù)中從未包含過(guò)的任務(wù)，但這些任務(wù)涉及的概念是存在于互聯(lián)網(wǎng)的數(shù)據(jù)中。

一個(gè)著名的例子是，你可以給機(jī)器人展示 Taylor Swift 的照片。雖然機(jī)器人從未在現(xiàn)實(shí)中“見(jiàn)過(guò)” Taylor Swift，但由于互聯(lián)網(wǎng)中有大量 Taylor Swift 的圖片，它可以利用這些信息以及 pre training 模型的權(quán)重來(lái)實(shí)現(xiàn)知識(shí)遷移，讓機(jī)器人執(zhí)行相應(yīng)的任務(wù)。

因此，我們并不是從零開(kāi)始，而是依托這些已有的知識(shí)進(jìn)行提升，這對(duì)整個(gè)研究有很大的幫助。

Elad：實(shí)現(xiàn)泛化的關(guān)鍵是什么？

Chelsea Finn：我認(rèn)為最重要的一點(diǎn)是獲取更多樣化的機(jī)器人數(shù)據(jù)。比如，在去年十月底的那個(gè)發(fā)布中，我們的數(shù)據(jù)是在三座建筑中收集的。而相比之下，互聯(lián)網(wǎng)上的語(yǔ)言模型和視覺(jué)模型所依賴(lài)的數(shù)據(jù)來(lái)源要廣泛得多，因?yàn)榫W(wǎng)絡(luò)上的圖片是由許多人拍攝的，文本是由許多人撰寫(xiě)的。因此，我們需要在更多不同的環(huán)境中采集數(shù)據(jù)，涉及更多物體、更多任務(wù)。

擴(kuò)展數(shù)據(jù)的多樣性，而不僅僅是數(shù)據(jù)的數(shù)量，這是至關(guān)重要的。我們目前的重點(diǎn)工作之一就是讓我們的機(jī)器人進(jìn)入更多不同的場(chǎng)景，并在這些環(huán)境中采集數(shù)據(jù)。與此同時(shí)，這也會(huì)帶來(lái)一個(gè)非常有價(jià)值的副產(chǎn)品——我們可以學(xué)習(xí)到如何讓機(jī)器人在各種不同環(huán)境中真正運(yùn)行并發(fā)揮作用。如果我們想要讓機(jī)器人在現(xiàn)實(shí)世界中真正使用，這一點(diǎn)至關(guān)重要。

除此之外，我們也在探索其他方向，比如利用人類(lèi)的視頻數(shù)據(jù)、從網(wǎng)絡(luò)中獲取數(shù)據(jù)、使用 pre training 模型，并思考推理能力的應(yīng)用，盡管目前更多是一些基礎(chǔ)的推理。

? 比如把一件臟衣服放進(jìn)洗衣籃，機(jī)器人需要能夠識(shí)別衣服和洗衣籃在哪里，以及完成這個(gè)任務(wù)需要執(zhí)行的操作。

? 比如要制作一個(gè)三明治，而用戶(hù)對(duì)腌黃瓜過(guò)敏，那么機(jī)器人應(yīng)該能夠推理出不應(yīng)該在三明治里放腌黃瓜。

總的來(lái)說(shuō)，最重要的仍然是獲取更豐富多樣的機(jī)器人數(shù)據(jù)。

Elad：開(kāi)源會(huì)是 PI 的長(zhǎng)期發(fā)展路徑嗎？

Chelsea Finn：我們一直非常開(kāi)放，開(kāi)源是我們有意識(shí)的選擇。我們不僅開(kāi)源了一些模型的權(quán)重，還發(fā)布了技術(shù)細(xì)節(jié)和論文，甚至還與硬件公司合作，向它們提供機(jī)器人設(shè)計(jì)。

首先，我們認(rèn)為這個(gè)領(lǐng)域還處于起步階段，這些模型在未來(lái) 1-3 年內(nèi)會(huì)變得更加強(qiáng)大，機(jī)器人也會(huì)變得更加強(qiáng)大。我們希望支持研究發(fā)展，支持社區(qū)，支持機(jī)器人技術(shù)，這樣當(dāng)我們最終開(kāi)發(fā)出通用模型技術(shù)時(shí)，整個(gè)世界會(huì)更好地為它做好準(zhǔn)備，屆時(shí)會(huì)有更強(qiáng)大的機(jī)器人能夠利用這些模型，也會(huì)有更多具備相關(guān)專(zhuān)業(yè)知識(shí)的人理解如何使用這些模型。

其次，我們擁有一支非常優(yōu)秀的研究人員和工程師團(tuán)隊(duì)，而頂尖的研究人員和工程師更希望加入開(kāi)放的公司，尤其是研究人員，他們希望自己的研究成果能夠得到認(rèn)可，并且能夠分享和討論他們的想法。吸引最優(yōu)秀的研究人員和工程師是解決機(jī)器人問(wèn)題的關(guān)鍵。

最后，選擇開(kāi)源的最大風(fēng)險(xiǎn)在于可能無(wú)法成功。我并不擔(dān)心競(jìng)爭(zhēng)對(duì)手，我更擔(dān)心的是最終沒(méi)有人能解決機(jī)器人問(wèn)題。

機(jī)器人技術(shù)非常困難，過(guò)去也有很多失敗的案例。與在圖像中識(shí)別物體不同，機(jī)器人操作幾乎沒(méi)有容錯(cuò)空間。比如，機(jī)器人與物體的接觸距離非常小的時(shí)候，一點(diǎn)點(diǎn)差距可能就會(huì)對(duì)結(jié)果產(chǎn)生巨大影響，會(huì)決定機(jī)器人能否成功操作這個(gè)物體。收集數(shù)據(jù)的挑戰(zhàn)也是如此，任何涉及硬件的事情都很困難。

03.機(jī)器人怎么實(shí)現(xiàn) AGI？

Elad：物理智能會(huì)在哪些領(lǐng)域產(chǎn)生最直接的影響，這些新方法什么時(shí)候能夠真正實(shí)現(xiàn)突破？

Chelsea Finn：Physical Intelligence 非常關(guān)注機(jī)器人的長(zhǎng)期問(wèn)題，而不是某一個(gè)特定的應(yīng)用，專(zhuān)注于單一應(yīng)用可能會(huì)帶來(lái)很多失敗的風(fēng)險(xiǎn)。我不確定物理智能的第一個(gè)應(yīng)用場(chǎng)景會(huì)在哪里。

在機(jī)器學(xué)習(xí)領(lǐng)域，有很多成功的應(yīng)用，比如推薦系統(tǒng)、語(yǔ)言模型、圖像檢測(cè)等，模型的輸出最終會(huì)被人類(lèi)使用，人類(lèi)可以進(jìn)行檢驗(yàn)，因?yàn)槿祟?lèi)通常是擅長(zhǎng)檢驗(yàn)的。很多機(jī)器人非常自然的應(yīng)用場(chǎng)景是機(jī)器人獨(dú)立自主地做某些事情，而不是接收人類(lèi)給出的指令，比如給定手臂的目標(biāo)位置，之后人類(lèi)再進(jìn)行檢驗(yàn)。因此，我們需要思考一些新的方法來(lái)應(yīng)對(duì)允許錯(cuò)誤的場(chǎng)景，或者是人類(lèi)和機(jī)器人可以合作的場(chǎng)景。

這是一個(gè)大挑戰(zhàn)。Physical Intelligence 一直在嘗試部署這些機(jī)器人技術(shù)，我們做的語(yǔ)言交互工作其實(shí)就是受到這個(gè)挑戰(zhàn)的推動(dòng)。人類(lèi)能夠提供輸入是非常重要的，比如人類(lèi)希望機(jī)器人如何表現(xiàn)、希望機(jī)器人做什么、希望機(jī)器人如何幫助完成某件事。

Elad：如何看待人形機(jī)器人與非人形機(jī)器人之間的差異？

Chelsea Finn：人形機(jī)器人真的很酷，但有些被高估了。從實(shí)際角度來(lái)看，我們現(xiàn)在在數(shù)據(jù)方面確實(shí)有瓶頸。一些人認(rèn)為人形機(jī)器人可能更容易收集數(shù)據(jù)，因?yàn)樗鼈兎先祟?lèi)的形態(tài)，可能會(huì)更容易模仿人類(lèi)。但如果你曾經(jīng)嘗試過(guò)遠(yuǎn)程操作人形機(jī)器人，你會(huì)發(fā)現(xiàn)操作人形機(jī)器人比操作一個(gè)靜態(tài)操控器或者一個(gè)帶輪子的移動(dòng)操控器要困難得多。

優(yōu)化數(shù)據(jù)收集非常重要，如果能達(dá)到一個(gè)超過(guò)需求的數(shù)據(jù)量程度，那么剩下的就只是研究、計(jì)算和評(píng)估的問(wèn)題了。我們正在優(yōu)化這個(gè)方向，這也是我們目前優(yōu)化的目標(biāo)之一。我們使用便宜的機(jī)器人，使用我們能夠非常輕松地開(kāi)發(fā)遠(yuǎn)程操作接口的機(jī)器人，這樣就可以快速進(jìn)行遠(yuǎn)程操作，并收集多樣化的大量數(shù)據(jù)。

Elad：怎么看待具身智能模型的開(kāi)發(fā)與非具身智能模型開(kāi)發(fā)之間的區(qū)別？

Chelsea Finn：人們低估了運(yùn)動(dòng)控制中所包含的智能。我們能夠像現(xiàn)在這樣使用雙手，是經(jīng)過(guò)了多年的進(jìn)化。而有許多動(dòng)物，即便經(jīng)歷了如此長(zhǎng)時(shí)間的進(jìn)化，也無(wú)法做到這一點(diǎn)。因此，能夠做一些非?；A(chǔ)的事情，比如做一碗麥片或者倒一杯水，實(shí)際上蘊(yùn)含著極大的復(fù)雜性和智能。所以，從某種程度上來(lái)說(shuō)，具身智能或物理智能是智能的核心。

Elad：在過(guò)去兩三年里，哪些研究促使人們覺(jué)得機(jī)器人到了一個(gè)轉(zhuǎn)折點(diǎn)？

Chelsea Finn：有幾個(gè)因素讓我們覺(jué)得這個(gè)領(lǐng)域的進(jìn)展比之前更快了。

第一個(gè)是 SayCan，可以利用語(yǔ)言模型對(duì)高層部分進(jìn)行規(guī)劃，再與低層模型結(jié)合，以便讓機(jī)器人完成長(zhǎng)時(shí)間的任務(wù)。

第二個(gè)是 RG2，能夠?qū)崿F(xiàn)前文所說(shuō)的 Taylor Swift 的例子，RG2 能夠?qū)⒋罅康木W(wǎng)頁(yè)數(shù)據(jù)集成進(jìn)來(lái)，從而提高機(jī)器人的泛化能力。

第三個(gè)是 RT-X，能夠跨不同的機(jī)器人形態(tài)訓(xùn)練模型。重要的是，我們可以將各個(gè)研究實(shí)驗(yàn)室的數(shù)據(jù)整合到一個(gè)通用格式，并在此基礎(chǔ)上進(jìn)行訓(xùn)練。

在訓(xùn)練時(shí)，我們發(fā)現(xiàn)可以將一個(gè)模型的 checkpoint 發(fā)送到另一個(gè)實(shí)驗(yàn)室，即使距離很遠(yuǎn)，那個(gè)實(shí)驗(yàn)室的研究生也可以在機(jī)器人上運(yùn)行這個(gè) checkpoint，且大多數(shù)情況下，結(jié)果比他們自己在實(shí)驗(yàn)室里單獨(dú)迭代出的模型要好。這是一個(gè)重要的標(biāo)志，說(shuō)明這些技術(shù)開(kāi)始真正起作用，通過(guò)匯總來(lái)自不同機(jī)器人的數(shù)據(jù)，的確能夠帶來(lái)益處。

checkpoint 是指在模型訓(xùn)練過(guò)程中保存模型當(dāng)前狀態(tài)的快照，通常包含模型的權(quán)重、優(yōu)化器的狀態(tài)以及其他訓(xùn)練相關(guān)的參數(shù)。

還有 Aloha 和 Mobile ALOHA，實(shí)現(xiàn)了遠(yuǎn)程操作來(lái)訓(xùn)練模型，使機(jī)器人完成相對(duì)復(fù)雜的精巧操作任務(wù)。我們還做了一個(gè)后續(xù)的關(guān)于系鞋帶的項(xiàng)目。

當(dāng)我們啟動(dòng) PI 時(shí)，也是對(duì)其他人發(fā)出了信號(hào)——如果專(zhuān)家們真的愿意在這個(gè)領(lǐng)域下注，那也許真的會(huì)有一些變化。

04.Hi Robot 是什么？

Elad：PI 最近推出了分層交互機(jī)器人，即 Hi Robot，這是怎么考慮的？

Chelsea Finn：我們?cè)噲D關(guān)注兩個(gè)方面。第一，如果一個(gè)任務(wù)需要較長(zhǎng)時(shí)間才能完成，即可能需要花費(fèi)幾分鐘，那么僅依賴(lài)單一策略，即從圖像直接輸出動(dòng)作，可能并不高效。比如在制作三明治的過(guò)程中，如果策略只是逐步輸出下一個(gè)運(yùn)動(dòng)指令，而不考慮整個(gè)任務(wù)的整體規(guī)劃，那么效果可能不如通過(guò)真正推理和規(guī)劃來(lái)完成所有步驟來(lái)得更好。

第二，我們希望機(jī)器人不僅僅能執(zhí)行基本指令，比如折疊衣服、拿起杯子，而是能夠與人類(lèi)互動(dòng)。例如人類(lèi)可以告訴機(jī)器人自己是一個(gè)素食主義者，要求機(jī)器人做一個(gè)三明治，不要加泡菜，或者中途要求機(jī)器人暫停放番茄。處理這些類(lèi)型的提示、進(jìn)行現(xiàn)場(chǎng)調(diào)整等，和僅僅執(zhí)行基本指令之間有很大的差距。

因此，我們開(kāi)發(fā)了一個(gè)系統(tǒng)，有一個(gè)模型來(lái)接收提示并進(jìn)行推理，能夠輸出機(jī)器人應(yīng)該執(zhí)行的下一步，比如告訴機(jī)器人下一步去“拿起番茄”，然后有一個(gè)低層次的模型，將“拿起番茄”作為輸入，輸出下一個(gè)半秒內(nèi)的命令。

這個(gè)項(xiàng)目非常有趣，我們讓機(jī)器人做了一個(gè)三明治，還做了購(gòu)物和清理桌子。我最初對(duì)它感到興奮，是因?yàn)榭吹綑C(jī)器人能夠響應(yīng)不同的提示并完成這些具有挑戰(zhàn)性的任務(wù)，而且，它似乎是一種正確的方法。

05.機(jī)器人需要哪些感官？

Elad：機(jī)器人的傳感器現(xiàn)在處于什么階段？

Chelsea Finn：如果僅僅依靠視覺(jué)，甚至僅使用 RGB 圖像，我們已經(jīng)走得很遠(yuǎn)了。我們通常會(huì)有一個(gè)或多個(gè)外部的基礎(chǔ)攝像頭來(lái)觀察場(chǎng)景，并且還會(huì)在機(jī)器人的每個(gè)手腕上安裝攝像頭。我們可以通過(guò)這些設(shè)備取得很好的效果。

如果我們能給機(jī)器人裝上“皮膚”就更好了，但目前市面上的觸覺(jué)傳感器要么不如皮膚那么耐用，要么成本過(guò)高，或者分辨率非常低。所以，在硬件方面有很多挑戰(zhàn)。實(shí)際上將 RGB 攝像頭安裝在手腕上非常有幫助，可能能提供與觸覺(jué)傳感器相似的很多信息。

Elad：在機(jī)器人領(lǐng)域，需要多少傳感器？哪些是必要的，哪些可能不需要？

Chelsea Finn：比如做三明治，你可能希望機(jī)器人能夠“品嘗”一下三明治，看看是不是好吃，或者至少能聞到味道。我過(guò)去曾多次向 Sergey Levine 提出過(guò)“嗅覺(jué)”這個(gè)觀點(diǎn)，因?yàn)樾嵊X(jué)確實(shí)有很多好處。

從某種角度來(lái)看，傳感器有冗余性是很好的。比如音頻，當(dāng)人類(lèi)聽(tīng)到某個(gè)意外的聲音時(shí)，實(shí)際上可以在許多情況下提醒你注意到某些事情，盡管你可能已經(jīng)通過(guò)其他傳感器看到了某個(gè)物體掉落。這樣的冗余性可以增強(qiáng)系統(tǒng)的魯棒性。

但對(duì)我們來(lái)說(shuō)，現(xiàn)在并不是優(yōu)先考慮這些傳感器的時(shí)機(jī)，因?yàn)楫?dāng)前的瓶頸并不在于傳感器，而是在數(shù)據(jù)處理，尤其是在架構(gòu)等方面。

目前我們的機(jī)器人策略沒(méi)有記憶，機(jī)器人只看當(dāng)前的圖像，甚至無(wú)法記住半秒鐘前發(fā)生的事情。所以，我寧愿先在我們的模型中加入記憶功能，而不是添加其他傳感器。在沒(méi)有其他傳感器的情況下，我們也能夠?yàn)樵S多應(yīng)用場(chǎng)景開(kāi)發(fā)出商業(yè)可行的機(jī)器人。

06.類(lèi)比自動(dòng)駕駛，機(jī)器人和機(jī)器人公司會(huì)如何發(fā)展？

Elad：和自動(dòng)駕駛相比，機(jī)器人未來(lái)發(fā)展的時(shí)間線大概是怎么樣的？

Chelsea Finn：我不知道。自動(dòng)駕駛和機(jī)器人技術(shù)各有難易之處。一方面，機(jī)器人更難，因?yàn)槭且粋€(gè)更高維度的空間，即使是靜態(tài)機(jī)器人也有 14 個(gè)維度，每只手臂有 7 個(gè)維度。在很多情況下，需要比自動(dòng)駕駛有更高的精確度。我們也沒(méi)有一開(kāi)始就擁有那么多的數(shù)據(jù)。

另一方面，自動(dòng)駕駛必須解決整個(gè)分布問(wèn)題，才能讓任何技術(shù)具備可行性，必須能夠處理任何時(shí)間段的交叉路口、各種行人情景以及其他車(chē)輛等。而在機(jī)器人技術(shù)中，有很多商業(yè)應(yīng)用場(chǎng)景不需要處理這么大的分布問(wèn)題，也沒(méi)有那么大的安全風(fēng)險(xiǎn)，而且自動(dòng)駕駛領(lǐng)域的結(jié)果非常令人鼓舞，尤其是舊金山 Waymo 車(chē)輛數(shù)量的增加。

Elad：類(lèi)比自動(dòng)駕駛的發(fā)展，現(xiàn)在的機(jī)器人公司會(huì)如何發(fā)展？大公司做機(jī)器人是否有優(yōu)勢(shì)呢？

Chelsea Finn：最近有很多新玩家進(jìn)入機(jī)器人領(lǐng)域。

10 年前，做自動(dòng)駕駛可能為時(shí)過(guò)早，但自那時(shí)以來(lái)，深度學(xué)習(xí)取得了很大的進(jìn)展。機(jī)器人領(lǐng)域也是如此，如果是在 10 年前，甚至 5 年前，我覺(jué)得也太早，當(dāng)時(shí)的技術(shù)并不成熟，或許現(xiàn)在仍然有些早。

自動(dòng)駕駛的難度已經(jīng)證明了在物理世界中構(gòu)建智能是多么困難。

我非常喜歡初創(chuàng)公司的環(huán)境，我在 Google 遇到過(guò)非常困難的事情，比如考慮到代碼安全，帶著機(jī)器人離開(kāi)校園幾乎是完全不可行的。但如果想收集多樣化的數(shù)據(jù)，把機(jī)器人帶出校園是很有價(jià)值的。而在初創(chuàng)公司中，你可以更快地行動(dòng)，因?yàn)槟銢](méi)有那些限制和繁瑣的程序。大公司雖然有大量資本，可以支撐得更久，但行動(dòng)會(huì)更慢。

對(duì)于初創(chuàng)公司的創(chuàng)始人而言，快速部署、快速學(xué)習(xí)和快速迭代可能是最重要的，而且要盡量去開(kāi)發(fā)，真正讓機(jī)器人走到市場(chǎng)上，并從中學(xué)習(xí)。

07.對(duì)訓(xùn)練數(shù)據(jù)和硬件的看法

Elad：怎么看待將人的觀察數(shù)據(jù)作為機(jī)器人訓(xùn)練集的一部分，這些數(shù)據(jù)可能來(lái)自 YouTube，或者是專(zhuān)門(mén)錄制的內(nèi)容。

Chelsea Finn：這些數(shù)據(jù)確實(shí)有很大價(jià)值，但僅憑這些數(shù)據(jù)并不能走得太遠(yuǎn)。

例如，你觀看奧運(yùn)游泳運(yùn)動(dòng)員比賽，即使你有運(yùn)動(dòng)員的體力，但運(yùn)動(dòng)員訓(xùn)練自己的肌肉來(lái)完成動(dòng)作的經(jīng)驗(yàn)也是至關(guān)重要的。

例如，你試圖學(xué)習(xí)如何打好網(wǎng)球，但僅僅通過(guò)觀看專(zhuān)業(yè)選手，是無(wú)法學(xué)會(huì)的。

人類(lèi)在低級(jí)別的運(yùn)動(dòng)控制方面已經(jīng)是專(zhuān)家，但機(jī)器人并不是這樣。機(jī)器人實(shí)際上需要從自身的身體經(jīng)驗(yàn)中來(lái)學(xué)習(xí)。所以，能夠利用這種數(shù)據(jù)形式，尤其是擴(kuò)展機(jī)器人自己的經(jīng)驗(yàn)，是非常有前景的。但要真正取得進(jìn)展，關(guān)鍵還是要有來(lái)自機(jī)器人本身的數(shù)據(jù)。

Elad：這些數(shù)據(jù)是你為機(jī)器人生成的通用數(shù)據(jù)，還是你讓機(jī)器人模仿某些活動(dòng)？

Chelsea Finn：當(dāng)我們收集數(shù)據(jù)時(shí)，機(jī)器人有點(diǎn)像牽線木偶，我們可以記錄機(jī)器人實(shí)際的運(yùn)動(dòng)指令和傳感器數(shù)據(jù)，比如攝像頭圖像，這就是機(jī)器人的“經(jīng)驗(yàn)”。

自動(dòng)化經(jīng)驗(yàn)將發(fā)揮巨大作用，就像在語(yǔ)言模型中那樣。得到一個(gè)初步的語(yǔ)言模型后，如果能通過(guò)強(qiáng)化學(xué)習(xí)讓機(jī)器人基于自己的經(jīng)驗(yàn)自我啟動(dòng)，那將是非常有價(jià)值的。

Elad：哪些數(shù)據(jù)是可泛化的？

Chelsea Finn：數(shù)據(jù)是否可泛化關(guān)鍵在于分布廣度（the breadth of the distribution）。

雖然很難量化或衡量機(jī)器人的經(jīng)驗(yàn)有多廣泛，也沒(méi)有辦法將任務(wù)的廣度進(jìn)行分類(lèi)，比如一個(gè)任務(wù)與另一個(gè)任務(wù)有多大不同，一個(gè)廚房與另一個(gè)廚房有多大差異之類(lèi)的，但至少可以通過(guò)觀察建筑物數(shù)量或場(chǎng)景數(shù)量等因素，粗略了解這種廣度。

Elad：隨著機(jī)器人技術(shù)的發(fā)展，未來(lái)機(jī)器人是會(huì)有一個(gè)單一的形式，還是會(huì)有幾個(gè)不同的形式，從而形成一個(gè)豐富的生態(tài)系統(tǒng)？

Chelsea Finn：我的猜測(cè)是會(huì)有很多不同的機(jī)器人平臺(tái)，各種各樣的機(jī)器人硬件類(lèi)型會(huì)涌現(xiàn)出來(lái)，我和 Sergey Levine 將其稱(chēng)為“寒武紀(jì)大爆發(fā)”。只要我們擁有可以支持這些不同機(jī)器人的技術(shù)和智能，就像廚房里有各種不同的設(shè)備，各自能做不同的事情，而不是只有一個(gè)設(shè)備能做所有事情。

可以想象一個(gè)這樣的世界：有一種機(jī)器人手臂可以在廚房里做事，它的硬件專(zhuān)門(mén)針對(duì)廚房工作進(jìn)行了優(yōu)化，并且可能還會(huì)優(yōu)化成對(duì)于這個(gè)特定用途而言更便宜，還有其他硬件可能設(shè)計(jì)用于折疊衣物、洗碗等。

Elad：在 The Diamond Age 這本書(shū)中，呈現(xiàn)了一種觀點(diǎn)：物質(zhì)通過(guò)管道進(jìn)入家庭，家庭用 3D 打印機(jī)來(lái)制作一切，比如你下載圖紙，然后 3D 打印出物品。還有一些人可能會(huì)修改設(shè)計(jì)，選擇性?xún)?yōu)化某些功能來(lái)改進(jìn)產(chǎn)品。這樣的未來(lái)有可能實(shí)現(xiàn)嗎？

Chelsea Finn：這樣的世界是非?？赡艿?。如果針對(duì)某個(gè)特定的使用場(chǎng)景來(lái)優(yōu)化硬件，是可以制造出更便宜的硬件的。而且這樣的硬件可能也會(huì)更快、效率更高等。但實(shí)際實(shí)現(xiàn)起來(lái)是非常困難的。

Elad：預(yù)測(cè)未來(lái)趨勢(shì)確實(shí)非常困難。我之所以認(rèn)為硬件平臺(tái)的數(shù)量會(huì)減少，其中一個(gè)原因就是供應(yīng)鏈問(wèn)題。大規(guī)模生產(chǎn)硬件組件可以降低成本，因此最終市場(chǎng)上的硬件平臺(tái)可能會(huì)收縮，變成更少但更具規(guī)模效應(yīng)的選擇。

除非某些硬件平臺(tái)在成本上有顯著的優(yōu)勢(shì)，否則企業(yè)更傾向于生產(chǎn)更少種類(lèi)的硬件，因?yàn)檫@樣更容易擴(kuò)展、復(fù)制，并且制造成本更低。從硬件行業(yè)的角度來(lái)看，這是一個(gè)常見(jiàn)的邏輯。因此，在“多樣化硬件平臺(tái)”與“規(guī)?；?、低成本生產(chǎn)”之間的權(quán)衡，是一個(gè)值得思考的問(wèn)題。

Chelsea Finn：我們可能會(huì)有機(jī)器人出現(xiàn)在供應(yīng)鏈中，能夠制造任何想要的定制設(shè)備。

Elad：未來(lái)，機(jī)器人將無(wú)處不在。

編譯：haozhen 編輯：Siqi

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】，微信公眾號(hào)：【海外獨(dú)角獸】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App