深剖Apple Vision Pro中暗藏的“AI”

VR陀螺
0 評(píng)論 4499 瀏覽 3 收藏 19 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

前段時(shí)間蘋果WWDC大會(huì)發(fā)布的Apple Vision Pro,引發(fā)了許多網(wǎng)友的關(guān)注,而雖然在2023的WWDC大會(huì)上蘋果沒(méi)有提到許多AI人工智能的相關(guān)訊息,但在Apple Vision Pro中,我們?nèi)匀豢梢钥匆?jiàn)其中隱藏的AI能力。一起來(lái)看看作者的分析吧。

在今年蘋果開(kāi)發(fā)者大會(huì)(WWDC 2023)上,庫(kù)克(Tim Cook)延續(xù)了喬布斯“one more thing”的表達(dá)發(fā)布了新一代空間計(jì)算產(chǎn)品——Apple Vision Pro。

這是一個(gè)值得讓人紀(jì)念的歷史性時(shí)刻,看到了又一個(gè)“one more thing”時(shí)刻來(lái)臨,更重要的是人機(jī)界面技術(shù)在蘋果發(fā)布新品之后會(huì)將迎來(lái)全新的發(fā)展,人類在虛擬/增強(qiáng)現(xiàn)實(shí)層面的腳步又前進(jìn)了一步。

之所以說(shuō)“又”是因?yàn)樵谔O果未發(fā)布新品之前,OpenAI推出了ChatGPT以及GPT大模型,讓人類徹底感受到AI能力的不凡,相應(yīng)地AI技術(shù)在AR/VR領(lǐng)域的應(yīng)用也凸顯了出來(lái),甚至帶來(lái)了新一輪產(chǎn)業(yè)格局的變化。

AI+便被視為虛擬/增強(qiáng)現(xiàn)實(shí)產(chǎn)業(yè)發(fā)展的關(guān)鍵因素,更是推動(dòng)產(chǎn)業(yè)走深的底層技術(shù),而蘋果一直作為行業(yè)“游戲規(guī)則的制定者”在AI層面的布局亦甚為久遠(yuǎn)。雖然在今年WWDC 2023大會(huì)上,蘋果只字未提人工智能,但從此次發(fā)布會(huì)上的產(chǎn)品以及新品Vision Pro中便能夠窺探出一二。

一、蘋果超十年的AI布局

6月2日,據(jù)外媒馬克?古爾曼的推特表示蘋果正在招募人工智能方面的人才,而據(jù)外媒消息顯示,自5月以來(lái)蘋果在招聘門戶網(wǎng)站上發(fā)布了至少88個(gè)與人工智能相關(guān)的職位,涵蓋視覺(jué)生成建模、主動(dòng)智能和應(yīng)用AI研究等領(lǐng)域。

深剖Apple Vision Pro中暗藏的“AI”

圖:馬克?古爾曼推特

所招聘的職位隸屬于一個(gè)團(tuán)隊(duì),該團(tuán)隊(duì)將“塑造生成式人工智能技術(shù)改變蘋果移動(dòng)計(jì)算平臺(tái)的方式”,進(jìn)一步表明iPhone以及Vision Pro等產(chǎn)品中的AI應(yīng)用將會(huì)得到進(jìn)一步擴(kuò)展。

但蘋果在人工智能層面的布局其實(shí)更早,2010年蘋果以2億美元的價(jià)格收購(gòu)了Siri團(tuán)隊(duì),并于2011年,隨著iPhone 4s的發(fā)布,Siri以智能語(yǔ)音助手的身份亮相市場(chǎng),如今被擴(kuò)展到Mac、iPad甚至新發(fā)布的產(chǎn)品Vision Pro中。

深剖Apple Vision Pro中暗藏的“AI”

圖:Vision Pro中呼喚Siri(來(lái)源:網(wǎng)絡(luò))

據(jù)VR陀螺梳理,2010至今蘋果收購(gòu)的AI相關(guān)企業(yè)近30家,已知的收購(gòu)金額超14億美元(折合人民幣近100億)。大部分的收購(gòu)與語(yǔ)音識(shí)別有關(guān),應(yīng)用方向集中在Siri上。但在生成式AI爆火的今年,Siri這一語(yǔ)音助手并未看到有太智能的進(jìn)步,如當(dāng)你問(wèn)Siri一個(gè)問(wèn)題時(shí),Siri仍然還是會(huì)告訴你它搜索了哪些網(wǎng)站或者直接回答我不是很清楚。

深剖Apple Vision Pro中暗藏的“AI”

圖表:蘋果收購(gòu)一覽(VR陀螺整理)

這種簡(jiǎn)單的操作相比如今會(huì)寫稿、會(huì)編程的ChatGPT很容易讓人忘記其實(shí)Siri也是人工智能,只是它與ChatGPT的工作原理不同。Siri的一大工作原理是當(dāng)它接收到指令后,會(huì)優(yōu)先傳送到蘋果的數(shù)據(jù)中心,數(shù)據(jù)中心會(huì)根據(jù)指令的內(nèi)容進(jìn)行分析,給出已知的答案;其次就是上傳到云端,給出答案“我不太清楚,但我從網(wǎng)絡(luò)上找到了這些信息”等等。而ChatGPT并沒(méi)有本地的流程,直接利用龐大的計(jì)算與模型推算,無(wú)論是否理解指令,都會(huì)給出答案。

蘋果向來(lái)對(duì)AI的發(fā)展都處于謹(jǐn)慎的態(tài)度,更喜歡強(qiáng)調(diào)機(jī)器學(xué)習(xí)功能以及為用戶提供好處,正如此次WWDC 2023大會(huì)上,庫(kù)克在接受媒體采訪時(shí)所稱“我們確實(shí)將它(AI)整合到我們的產(chǎn)品中,但人們不一定將其視為人工智能?!?/strong>正因?yàn)槿绱耍O果才會(huì)限制Siri無(wú)節(jié)制發(fā)展。

不僅是Siri,在蘋果產(chǎn)品中被忽略AI能力還有很多,像Apple Pencil的筆觸追蹤,F(xiàn)aceID的面容識(shí)別以及新品Vision Pro中的智能輸入等,都呈現(xiàn)了AI的能力,下文會(huì)詳談。

另一方面,蘋果的AI戰(zhàn)略更注重兩個(gè)點(diǎn):性能與安全。在性能層面,蘋果會(huì)將AI融入到產(chǎn)品中,提高產(chǎn)品的使用效果;而安全則是隱私,隱私是蘋果歷來(lái)注重的一個(gè)點(diǎn),如2015年蘋果收購(gòu)Perceptio,這家公司主要從事人工智能照片分類,但除了圖片自動(dòng)分類外,Perceptio還可以保護(hù)隱私,無(wú)需將用戶數(shù)據(jù)存儲(chǔ)在云端。

2020年,蘋果機(jī)器學(xué)習(xí)和人工智能戰(zhàn)略的高級(jí)副總裁John Giannandrea以及產(chǎn)品營(yíng)銷副總裁Bob Borchers在一次訪談中便肯定了蘋果的AI戰(zhàn)略,并表示2018年蘋果就加快了這一進(jìn)程,讓iPhone 中的 ISP 與神經(jīng)引擎緊密合作(中央處理器),只是蘋果不會(huì)向外說(shuō)太多自己的AI能力,強(qiáng)調(diào)的則是Transformer 語(yǔ)言模型、機(jī)器學(xué)習(xí)等。

而Giannandrea和Borchers也清楚地表明:如今,機(jī)器學(xué)習(xí)在蘋果的產(chǎn)品功能中發(fā)揮了重要作用,機(jī)器學(xué)習(xí)在蘋果的應(yīng)用還會(huì)繼續(xù)增強(qiáng)。

二、Apple Vision Pro中透露出的AI能力

在生成式AI爆火的今年,很多業(yè)內(nèi)人士都預(yù)測(cè)稱今年的WWDC2023大會(huì),蘋果可能也會(huì)談及AI,但在近2小時(shí)的發(fā)布會(huì)上,AI一次都未被提及,只是在其產(chǎn)品中無(wú)處不在。陀螺君針對(duì)Vision Pro所展現(xiàn)的AI能力進(jìn)行了梳理,不難看出AR/VR若想進(jìn)一步發(fā)展,必然也離不開(kāi)AI技術(shù)的支持。

1. AI數(shù)字分身

AI的接入使數(shù)字人制作更加逼真,甚至在一些網(wǎng)站上,用戶也可以根據(jù)自己的需求創(chuàng)建符合自己需求的數(shù)字人,而3D虛擬數(shù)字人也是VR頭顯進(jìn)一步發(fā)展避不開(kāi)的一節(jié)。Meta在去年就發(fā)布了Codec Avatar 2.0版本,比1.0進(jìn)一步完成了逼真的數(shù)字人效果。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

Vision Pro則是通過(guò)前置攝像頭掃描人的面部信息,再基于機(jī)器學(xué)習(xí)技術(shù),系統(tǒng)會(huì)使用先進(jìn)的編碼神經(jīng)網(wǎng)絡(luò),為用戶生成一個(gè)“數(shù)字分身”。并且當(dāng)用戶正通過(guò)FaceTime通話時(shí),數(shù)字分身可以動(dòng)態(tài)模仿用戶的面部和手部的動(dòng)作,保留數(shù)字分身的體積感和深度。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

根據(jù)蘋果表示,目前團(tuán)隊(duì)正在積極優(yōu)化所述功能,在未來(lái)的visionOS更新中,數(shù)字人會(huì)變得更加逼真。另一方面,從發(fā)布會(huì)上的使用效果來(lái)看,數(shù)字分身的構(gòu)建確實(shí)已經(jīng)很逼真了,而且操作上也更加簡(jiǎn)單,僅需用設(shè)備掃一掃面部信息即可,可以說(shuō)已經(jīng)超越了目前市面上一些數(shù)字分身軟件。

2. AI情緒檢測(cè)

蘋果在2016年就收購(gòu)了一家AI情緒檢測(cè)的公司,而今年據(jù)外媒消息顯示,蘋果正在研發(fā)一種名為Quartz的人工智能健康指導(dǎo)服務(wù)與跟蹤情緒的新技術(shù)。

在此次Vision Pro發(fā)布后,蘋果前研究員Sterling Crispin在推特中,透露了不少關(guān)于Vision Pro的黑科技。其中最令人驚嘆的便是Vision Pro可以通過(guò)用戶在沉浸式體驗(yàn)中的身體和腦部數(shù)據(jù),來(lái)檢測(cè)用戶的心理狀態(tài)。Sterling Crispin將其稱為“腦機(jī)接口”或“讀心術(shù)”。

深剖Apple Vision Pro中暗藏的“AI”

圖:Sterling Crispin的推特信息

而這項(xiàng)技術(shù)背后的主要原理則是,每個(gè)人在做每件事之前,瞳孔會(huì)做出反應(yīng),其中部分原因是你預(yù)計(jì)在你點(diǎn)擊之后會(huì)發(fā)生一些事情。因此,蘋果可以通過(guò)算法來(lái)監(jiān)視你的眼睛行為。并實(shí)時(shí)重新設(shè)計(jì)UI,以創(chuàng)建更多這種預(yù)期的瞳孔反應(yīng),從而創(chuàng)建個(gè)人大腦的生物反饋。

3. 更智能的輸入方式

為了進(jìn)一步滿足用戶對(duì)指引功能和空間內(nèi)容的交互,Vision Pro引入了全新的輸入系統(tǒng),即由眼睛、手勢(shì)和語(yǔ)音來(lái)進(jìn)行交互,通過(guò)注視應(yīng)用,“輕敲/輕拂”的手勢(shì)進(jìn)行應(yīng)用的選擇,或使用語(yǔ)音指令來(lái)瀏覽應(yīng)用。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

當(dāng)眼睛注視到瀏覽器搜索框時(shí),搜索框即進(jìn)入聽(tīng)寫輸入狀態(tài),此時(shí)只需語(yǔ)音說(shuō)出想要檢索的內(nèi)容,即可自動(dòng)鍵入文本,進(jìn)而進(jìn)行搜索。使用 Siri 還能快速打開(kāi)和關(guān)閉 app,播放媒體文件等。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

雖然蘋果并沒(méi)有在Vision Pro介紹中強(qiáng)調(diào)輸入法,但從iOS 17的介紹中可知,蘋果更新的更加智能的輸入法,不僅可以糾正拼寫錯(cuò)誤,甚至還可以糾正用戶在輸入過(guò)程中的語(yǔ)法錯(cuò)誤。更為重要的是,基于設(shè)備端的機(jī)器學(xué)習(xí),輸入法還會(huì)根據(jù)用戶每一次的鍵入自動(dòng)改進(jìn)模型,將輸入法的自動(dòng)糾正功能達(dá)到了前所未有的準(zhǔn)確度。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

4. 新的操作系統(tǒng)“visionOS”

據(jù)蘋果表示,建立在macOS、iOS和iPadOS的研發(fā)基礎(chǔ)上,他們從零開(kāi)始為Vision Pro設(shè)計(jì)了新的操作系統(tǒng)VisionOS,以實(shí)現(xiàn)對(duì)低延遲要求非常高的空間計(jì)算能力;分別內(nèi)嵌了iOS框架、空間計(jì)算框架、空間音頻引擎、3D空間引擎、注視點(diǎn)渲染引擎、實(shí)時(shí)驅(qū)動(dòng)的子系統(tǒng)等。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

據(jù)蘋果透露, visionOS將會(huì)有全新的 AppStore,未來(lái)會(huì)有更多專門針對(duì) Vision Pro 開(kāi)發(fā)的應(yīng)用,例如 3D 解剖圖等。

5. 場(chǎng)景與動(dòng)作識(shí)別

從以上可以看出Vision Pro的創(chuàng)新離不開(kāi)AI的發(fā)展,在Vision Pro的空間音頻計(jì)算、眼球動(dòng)作以及手部行為的捕捉,這些都是人工智能技術(shù)所發(fā)力的領(lǐng)域,蘋果憑借著M2和R1兩顆芯片提供的算力支撐,順利實(shí)現(xiàn)了人工智能的本地化部署。

而除了在Vision Pro隱藏了無(wú)處不在的AI能力外,蘋果的所有產(chǎn)品幾乎都能看到AI的技術(shù),AI幾乎已經(jīng)滲透到了其產(chǎn)品的各個(gè)細(xì)節(jié)中,進(jìn)一步表明了“AI+”在AR/VR層面發(fā)展的重要程度。

雖然蘋果只字未提AI,但庫(kù)克在一次訪談中表示“他個(gè)人正在使用 ChatGPT 并對(duì)這個(gè)獨(dú)特應(yīng)用程序感到興奮,并表示蘋果目前正密切關(guān)注該工具?!睅?kù)克還補(bǔ)充說(shuō),“大型語(yǔ)言模型顯示出巨大的希望,但也有可能出現(xiàn)諸如偏見(jiàn)、錯(cuò)誤信息之類的事情,而且在某些情況下可能更糟。

在筆者看來(lái),AI作為一項(xiàng)技術(shù)本就該用于提升產(chǎn)品的性能,更好地為人類服務(wù),過(guò)多的炒作或宣傳反而失去了這項(xiàng)技術(shù)本該有的樣子。同時(shí),人工智能或者機(jī)器學(xué)習(xí)在未來(lái)會(huì)變得更加普遍,對(duì)于生成式AI,蘋果或許并沒(méi)有以大眾希望的樣子而展開(kāi),但相信蘋果默默將其融于產(chǎn)品后一定可以提升用戶的體驗(yàn),讓人眼前一亮。

三、“AI+”,AR/VR發(fā)展關(guān)鍵的一環(huán)

之前陀螺君曾在一篇文章中分析過(guò)“AI+”對(duì)產(chǎn)業(yè)競(jìng)爭(zhēng)格局的影響,可點(diǎn)擊閱讀《攪局者GPT-4已來(lái),AR產(chǎn)業(yè)競(jìng)爭(zhēng)格局邁入新維度》,但拋開(kāi)產(chǎn)業(yè)競(jìng)爭(zhēng)格局來(lái)看,“AI+”也會(huì)為AR/VR設(shè)備的性能帶來(lái)更大的提升。

今年,Meta發(fā)布了用于圖像分割的新模型 Segment Anything Model (SAM),據(jù)Meta博客表示,SAM已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓(xùn)練過(guò)程中沒(méi)有遇到過(guò)的物體和圖像類型。SAM足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像領(lǐng)域上即開(kāi)即用,無(wú)需額外的訓(xùn)練。

如下圖所示,SAM能很好的自動(dòng)分割圖像中的所有內(nèi)容:
深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

未來(lái),SAM有望接入AR/VR設(shè)備, 如用于通過(guò)AR眼鏡識(shí)別日常物品,用戶僅需要使用目光注視物體,SAM便能夠?qū)τ脩艨吹降漠嬅孢M(jìn)行分割;配合AR眼鏡應(yīng)用,為用戶展示所注視物體的提醒和說(shuō)明。

另一方面,大語(yǔ)言模型的發(fā)展可以為AR/VR設(shè)備的語(yǔ)音交互與物體識(shí)別帶來(lái)更具沉浸式的交互式體驗(yàn)。大語(yǔ)言模型能夠理解更為復(fù)雜的自然語(yǔ)言,完成更復(fù)雜的自然語(yǔ)言處理任務(wù),進(jìn)而能夠聽(tīng)懂用戶以語(yǔ)音形式給出的復(fù)雜指令并做出響應(yīng),增強(qiáng)AR/VR設(shè)備語(yǔ)音交互方式的體驗(yàn)。隨著大模型快速迭代,算力支持不斷堅(jiān)實(shí),AR/VR的沉浸式體驗(yàn)的交互方式或更進(jìn)一步豐富。

其次,生成式AI的發(fā)展,也會(huì)進(jìn)一步降低AR/VR應(yīng)用中3D創(chuàng)作的成本與門檻,解決AR/VR對(duì)3D素材大量的需求。關(guān)于生成式AI對(duì)3D創(chuàng)作的影響,陀螺君之前也寫過(guò)一篇短文分析,可閱讀《AI 3D創(chuàng)作來(lái)了?“搶飯碗”成真》。

深剖Apple Vision Pro中暗藏的“AI”

圖源:網(wǎng)絡(luò)

最后,“AI+”融合AR/VR的發(fā)展已是產(chǎn)業(yè)發(fā)展的很大趨勢(shì),無(wú)論是從蘋果的產(chǎn)品來(lái)看,還是Meta最新公布的布局亦或是AI對(duì)設(shè)備更新的影響,都表明了充分結(jié)合AI技術(shù)是未來(lái)AR/VR產(chǎn)業(yè)發(fā)展重要的一環(huán)。

但值得一提的是,AI的發(fā)展到現(xiàn)在還未看到明確的規(guī)范性文件出來(lái),如果無(wú)限制發(fā)展AI給產(chǎn)業(yè)帶來(lái)的負(fù)面影響也不可低估,如侵犯用戶隱私、詐騙、數(shù)據(jù)泄露、認(rèn)知偏見(jiàn)等等。

參考文章:

  1. https://arstechnica.com/gadgets/2020/08/apple-explains-how-it-uses-machine-learning-across-ios-and-soon-macos/
  2. https://blog.roboflow.com/apple-vision-pro-visionos-computer-vision/
  3. 蘋果的人工智能應(yīng)用,跟 ChatGPT 不太一樣
  4. 蘋果Vision Pro竟暗藏「腦機(jī)接口」?
  5. Apple Vision Pro“泄漏”了蘋果哪些AI能力?

作者:VR陀螺 元橋

來(lái)源公眾號(hào):VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
142105人已学习32篇文章
做一个好运营,技术和意识都得过硬。
专题
15672人已学习12篇文章
本专题的文章分享了如何从0-1搭建A/B Test。
专题
15517人已学习11篇文章
采用IPD开发流程,在初期能把各种工作问题识别出来并扼杀在摇篮中。本专题的文章分享了什么是IPD开发流程?如何应用IPD开发流程?
专题
15507人已学习14篇文章
在我们的生活中,因为大数据的应用,很多事情变得越来越便利。本专题的文章分享了大数据的应用场景。
专题
34433人已学习23篇文章
不懂心理学,怎么懂你的用户;不懂你的用户,又怎么做好产品的设计和运营。
专题
12731人已学习12篇文章
发觉用户本能的最好方式就是从用户的心理出发,利用人的本能做产品设计,用最“自然”的方式影响用户的行为。本专题的文章分享了产品心理学。