I/O 2024,Google 吹響通用 AI 反擊號角

0 評論 653 瀏覽 1 收藏 16 分鐘

在今年的Google I/O上,有哪些更新和動態(tài)值得我們關(guān)注?起碼在發(fā)布會之后,我們可以看到,Google在AI領(lǐng)域的第一梯隊位置再一次得到了穩(wěn)固。

有了 24 小時前 OpenAI 用 GPT-4o 帶來的炸場之后,今年的 Google I/O 還未開始,似乎就被架在了一個相當(dāng)尷尬的地位,即使每個人都知道 Google 將發(fā)布足夠多的新 AI 內(nèi)容,但有了 GPT-4o 的珠玉在前,即使是 Google 也不得不面臨巨大的壓力。

這種奇怪的氣氛貫穿了今年 Google I/O 主題演講始終,除了 CEO 皮查伊演講少了很多自信、多了一些此前少見的不自然感與口誤之外,今年 Google I/O 還貢獻(xiàn)了歷年最奇怪的暖場活動,是以一次 AI 工具的翻車為開場:一位從舞臺上的茶杯中鉆出的 DJ,在臺上使用 Google 內(nèi)部開發(fā)的一款 AI DJ 小工具 —— MusicFX DJ,在舞臺上現(xiàn)場用隨機生成的關(guān)鍵詞,來創(chuàng)造出一首曲目。

雖然創(chuàng)作出的曲調(diào)很糟糕,甚至現(xiàn)場效果還有點魔幻,在社交媒體上遭到大量猝不及防的開發(fā)者一致吐槽,但好在 Google 還是用兩個小時的時間,給這個世界再一次帶來了足夠多的驚喜 —— 以及對 OpenAI 與微軟的反擊。

開場首先,皮查伊先帶我們回顧了過去一年 Google AI 主打產(chǎn)品 —— Gemini 的主要進(jìn)展,如果說全年 I/O 全場出現(xiàn)頻率最高的詞是 AI 的話,今年毫無意外將變成 Gemini;首先是 Gemini Advanced 在發(fā)布三個月之后就已經(jīng)獲得了超過一百萬用戶;以及兩個月之前發(fā)布、最高支持一百萬 Token 上下文識別(通行計算方法中約等于 50 萬中文字符)。的 Gemini 1.5 Pro,今天起將面向全球用戶正式推送。

不僅如此,Gemini 1.5 Pro 還從原本的一百萬 Token 上下文升級至兩百萬 Token 上下文識別。這意味著在多模態(tài)處理中能處理超過三萬行代碼,或是超過一小時的視頻文件。

在介紹了 Gemini 本身之后,就到了 Gemini 真正的長處 —— 應(yīng)用內(nèi)整合體驗中,皮查伊先是演示了整合在相冊中的功能,在停車并給車拍了照片之后,當(dāng)你找不到停車的位置,可以直接問 Gemini “我的車在哪”,它就能幫你自動識別相關(guān)照片中的信息,提示你車停在了哪里。

這個功能被稱為。Ask Photos,將于今年正式發(fā)布。

在 Google 辦公套件中,如今也迎來了 Gemini 更深度的整合,不僅能在 Gmail 中生成線上會議紀(jì)要、在所有郵件中提取關(guān)鍵信息。還能與 Google 表格聯(lián)動,自動整理郵件中包括的表格文件,甚至是生成一個數(shù)據(jù)分析表格。

為了提升用戶日常處理工作內(nèi)容的辦公效率,Google 還將 Gemini 的功能包裝成了一個 AI 員工—— AI Teammate,來充當(dāng)你工作中的一個人工智能助理,幫你整理各種信息并借助大模型來實現(xiàn)更智能的反饋,例如從郵件中提煉信息,甚至是會議錄音中的關(guān)鍵信息。

除了辦公套件之外 去年作為探索項目登場的 Notebook LM 今年也公布了新進(jìn)展:作為 Google 生成式 AI 直面教育應(yīng)用場景的項目,這被外界看作是對 OpenAI”撞車“最直接的回應(yīng)。

在現(xiàn)場的演示中,NotebookLM 不僅能很好地充當(dāng)一個老師的身份、講述一組簡單的物理課程,還能模擬兩個演講者,生成一個類似對話的講解內(nèi)容。在用戶提問“你能舉個例子嗎”這樣的問題時,實時給出一個準(zhǔn)確的回答。讓你能夠更準(zhǔn)確地掌握物理原理中的細(xì)節(jié)。

Google 同時還針對去年發(fā)布、在 Android 手機上實現(xiàn)畫圈搜索功能的“Circle to Search”功能加入了更多教育相關(guān)的使用場景:現(xiàn)在這個功能已經(jīng)支持識別畫面中的數(shù)學(xué)題以及符號公示等復(fù)雜的內(nèi)容。

在 AI 行業(yè)早期,除了 OpenAI 之外,還存在著另外一個聚集了業(yè)界大量人才的組織 —— 那就是如今已經(jīng)被 Google 收購并整合的 DeepMind。

但在過去十余年時間中,DeepMind 長期以一種低調(diào)的印象示人:以研究成果定勝負(fù),而不是像 OpenAI 管理層一樣,在各種演講中拋頭露面發(fā)表言論。

但在今年 I/O 上,DeepMind 創(chuàng)始人哈薩比斯第一次出現(xiàn)在 Google I/O 舞臺上,來給金主“救火”,Alphabet 內(nèi)部對 AI 的緊迫性可見一斑。

這位 AI 行業(yè)舉足輕重的大牛上臺,卻看似輕飄飄地發(fā)布了一個針對端側(cè)的模型 —— Gemini 1.5 Flash,甚至現(xiàn)場觀眾都有些沒反應(yīng)過來他是在賣什么關(guān)子,直到哈薩比斯說出他們的最終目的 —— 打造通用強人工智能。

實現(xiàn)這個目標(biāo)的具體步驟,就是哈薩比斯介紹的新項目 —— Project Astra,探索通用人工智能如何在日常生活中為我們提供真正日常生活所必須的幫助。

作為對這個問題的直接回應(yīng),哈薩比斯現(xiàn)場展示了 Astra 的一個使用視頻:操作者以智能手機為媒介,讓大模型實時收集環(huán)境中的各種信息,并在圍繞著辦公室轉(zhuǎn)了一圈后突然提問:你記得眼鏡在哪里嗎“。

在正常的環(huán)境中,即使是兩個正常人類之間對話,也可能會忽視掉這些細(xì)節(jié),但演示中的 AI 卻精準(zhǔn)地從眾多環(huán)境信息中捕捉到了眼鏡的位置,并給出了正確的方位提示。這種強悍的通用語言與環(huán)境理解能力將現(xiàn)場氣氛推向了最高潮,也再一次向外界展示了 Deepmind 作為傳統(tǒng) AI 強手實力的冰山一角。

哈薩比斯還特別提到,這些演示項目并非刻意實現(xiàn)、“僅供參考”的演示效果,兩個短片中的所有實現(xiàn)效果都是一次完成。這意味著當(dāng)前 Project Astra 已經(jīng)能非常流暢地實現(xiàn)這些效果。

除了對通用人工智能的探索之外,哈薩比斯還介紹了 Deepmind 在多模態(tài)領(lǐng)域的新進(jìn)展:將在圖像、音頻以及視頻三個主要內(nèi)容領(lǐng)域全方位出擊。分別是能夠生成超過 60 秒、畫質(zhì)為 1080p 的視頻片段的視覺模型 Voe、文生圖模型 Imagen 3、以及面向?qū)I(yè)音樂創(chuàng)作者的音樂合成工具 Music AI Sandbox。

TPU 硬件的更新也是 Google I/O 主題眼鏡中的保留項目,每次伴隨著 AI 新技術(shù)發(fā)布,TPU 作為驅(qū)動軟件的硬件引擎都會隨著更新迭代。

這次主題演講中 Google 發(fā)布了代號為 Trilium 的第六代 TPU 硬件,計算能力相比前代提升 4.7 倍,預(yù)計將在 2024 年年底面向用戶推出,本次發(fā)布會中出現(xiàn)的 Veo、Gemini 1.5 Pro 等幾乎所有產(chǎn)品,都是在這些新硬件上計算而來。

Android 也不能免俗,將 AI 功能更新作為今年介紹的重點。尤其是 Gemini 在 Android 系統(tǒng)中更深度的整合。

實際上今年的 Android 15 當(dāng)然也不只有 AI 功能,但 Google 為了給 AI 功能讓路,在首日的主題演講中介紹的都是 Android 15 中與 AI 相關(guān)的動態(tài),剩余的內(nèi)容被擠到了次日的分會場演講中。

Gemini 作為一個獨立 App 在 Android 端已經(jīng)存在一段時間了,這次 Google 終于進(jìn)一步發(fā)揮了“主場”優(yōu)勢,將 Gemini 進(jìn)一步整合進(jìn)操作系統(tǒng)中:現(xiàn)在在 Gemini 對話中生成的圖像可以被直接拖拽到其他應(yīng)用中使用。

這次 Gemini 在 Android 上的最新進(jìn)展是 Gemini Live,主打使用語音的雙向流暢對話體驗,在對話過程中你甚至可以像現(xiàn)實與真人對話一樣,通過打斷對話、提出新問題的方式來更高效的溝通。Google 同時預(yù)告基于 Project Astra 實現(xiàn)的攝像視頻識別功能也將在今年年內(nèi)發(fā)布。

這個功能實現(xiàn)的原理,是將視頻內(nèi)容逐幀拆解并交給 Gemini 識別,在效果上實現(xiàn)接近“理解世界”的效果。例如當(dāng)你不會用某款相機時,用手機鏡頭對準(zhǔn)相機并提問,Gemini 就能夠從畫面中識別出相機的型號,并根據(jù)你的問題,搜索相關(guān)內(nèi)容給出使用教程。

另一個重要功能更新是 Android 15 中的 Gemini 支持了 YouTube 視頻內(nèi)容識別,Gemini 在視頻播放界面可以直接提取視頻相關(guān)的信息,并回答用戶各種關(guān)于視頻的問題,甚至是生成視頻內(nèi)容摘要。YouTube 上數(shù)十億個視頻都可以使用這個功能。

除了這些聯(lián)網(wǎng)功能更新,去年發(fā)布的、完全基于端側(cè)算力實現(xiàn)的 Gemini Nano 則是更多本地功能的基礎(chǔ);基于本地模型實現(xiàn)的功能不僅能更快速地實現(xiàn)諸如畫面內(nèi)容識別等無障礙功能,還能在更多隱私需求更高的應(yīng)用場景中,比如這次新發(fā)布的基于本地語音模型、通過對話內(nèi)容,判斷出對方是否可能是詐騙電話。

通過 Gemini Nano 模型本地實時處理,在檢測到諸如“銀行”“轉(zhuǎn)賬”等關(guān)鍵字眼以及上下文之后,手機的通話界面會彈出一個“這可能是詐騙電話”的提示,并給出諸如“銀行不會要求你通過電話轉(zhuǎn)賬”這種可能的理由。

毫無疑問,在智能手機端,端側(cè)模型的潛力還有巨大的挖掘空間,這次模型本身能力也得到了加強,Gemini Nano 在原本僅支持文本識別的基礎(chǔ)上,將于今年內(nèi)增加視覺、聽覺與口語的識別支持。

去年在 OpenAI 改變世界之后,Google 也只是被改變的一部分:2023 I/O 中即使充滿了各種 AI,也很容易給人一種“湊數(shù)”的觀感:以至于“演講中出現(xiàn)了多少次 AI”的惡搞視頻,反而在主題演講結(jié)束后,成為社交媒體上被瘋傳最多的內(nèi)容。

到了 2024,即使 OpenAI 還想在復(fù)刻一把“偷襲”,但 Google 這次的準(zhǔn)備顯然更加充足自信,甚至 Google 官方也還玩了去年的梗,主動問了觀眾“我們今年說了多少次 AI”??

對于這個問題,皮查伊的回答是將演講的文稿直接扔給 Gemini,讓它提取文本中內(nèi)容來回答,答案是 120 次,然后在說出這句話的同時,數(shù)字變成了 121。

這個小小的幽默其實也揭示了 Google 對 AI 的開放態(tài)度:任何問題都嘗試用 AI 來回答。皮查伊還重新強調(diào)了 Google 在 AI 領(lǐng)域的目標(biāo)”整理世界所有的信息為你所用“,Google 在軟件側(cè)的所有軟件更新幾乎都是在踐行這一目標(biāo)。

從這一點來講,有著廣泛應(yīng)用生態(tài)與用戶的 Google 生態(tài),仍然有著巨大的先手優(yōu)勢。加上本次 I/O 中展示的既有當(dāng)下就能立即使用到的 Gemini 更新,也有類似 Project Astra 這樣極具野心的前沿探索項目,一系列組合拳之下,Google 在 AI 領(lǐng)域的第一梯隊位置再一次得到了穩(wěn)固。

至少從這次 I/O 我們看到新內(nèi)容的分量來講,Google 仍然是 OpenAI 最強力的競爭對手,即使它曾經(jīng)短暫地落于下風(fēng)。

記者:張勇毅,編輯:高宇雷

來源公眾號:電廠(ID:wonder-capsule),探索科技公司的未知,為你充電。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @電廠 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Pixabay,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!