關(guān)于多模態(tài)AI的三點(diǎn)產(chǎn)品視角反思

0 評論 3908 瀏覽 4 收藏 12 分鐘

多模態(tài)AI技術(shù)被認(rèn)為是AI發(fā)展的下一個(gè)重要里程碑,具有無限潛力。本文將探討多模態(tài)AI在需求定位、技術(shù)路徑和產(chǎn)品設(shè)計(jì)方面的關(guān)鍵問題,并提出相關(guān)思考和建議。

最近《后GPT時(shí)代,多模態(tài)是最大的機(jī)會》一文中,行業(yè)前輩王老師提到,多模態(tài)AI的上下游任務(wù)與技術(shù)路線之間,會有排列組合游戲,處于爆發(fā)的早期……是大模型科研與工程領(lǐng)域最好的彎道超車機(jī)會。

關(guān)于多模態(tài),我個(gè)人應(yīng)該是業(yè)內(nèi)最早關(guān)注到的從業(yè)者之一(至少6年前)。本文,將從需求定位、技術(shù)路徑、產(chǎn)品設(shè)計(jì)三方面、來分享一些AI產(chǎn)品經(jīng)理視角的反思。

引子:六年前的“多模態(tài)”還相對模糊(PPT+專利+demo)

在2017年4月的200頁P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》中,我提及過“多模態(tài)”,如下面2張圖:

在2017年10月的120頁P(yáng)PT《產(chǎn)品視角下,現(xiàn)階段的AI如何落地》中,也分享過Andrei Cheremskoy提出的“組合矩陣”方法,能系統(tǒng)性研究深度學(xué)習(xí)的應(yīng)用機(jī)會。

同樣在2017年,我寫了專利“多模態(tài)虛擬機(jī)器人的內(nèi)容生成的方法和系統(tǒng)”。

甚至在2016年4月,我還在兒童機(jī)器人上,做過“中英文混合對話”+“多模態(tài)交互”的最初級demo。(可能是當(dāng)年技術(shù)條件下的最佳demo效果了,最近在星球里分享了當(dāng)時(shí)的演示視頻,對于多模態(tài),我個(gè)人是認(rèn)可這個(gè)大方向的;下面,僅是想從產(chǎn)品視角,分享些不同的認(rèn)知,供大家綜合參考。

一、需求定位:如何規(guī)避“拿著錘子找釘子”的風(fēng)險(xiǎn)?

正面看,很容易覺得排列組合的機(jī)會點(diǎn)太多了,容易有過于“理所應(yīng)當(dāng)”的風(fēng)險(xiǎn)。此時(shí),可能更需要從產(chǎn)品/需求視角出發(fā),看看咱們到底有哪些非共識的行業(yè)know-how。

最近,我分享的《大模型時(shí)代,產(chǎn)品經(jīng)理的什么能力會成為稀缺(1)》一文中提到:

這一波AI 2.0,一定不是簡單的ChatGPT化、CUI化。而是需要先把業(yè)務(wù)吃透,再看可以如何借用AI、對話式交互的能力來解決問題。

就像移動互聯(lián)網(wǎng)時(shí)代,不是把web內(nèi)容簡單搬到手機(jī)app上。

現(xiàn)在,也不是智能汽車那種簡單的“所見即可說”,全部用語音操控的方式實(shí)現(xiàn)一遍。

作為產(chǎn)品經(jīng)理,一開口,一定不要僅僅是what層面的“可以做什么”。

作為產(chǎn)品經(jīng)理,一開口,就要說場景、用戶、需求、細(xì)節(jié)、你有什么特別的洞察等等這些。

沒有why和how支撐的what,沒有意義。

這背后,更實(shí)戰(zhàn)的干貨認(rèn)知,是我在《AI創(chuàng)業(yè)公司的妄念:招個(gè)AI產(chǎn)品經(jīng)理來想idea》中分享的這幾段話:

老板/部門負(fù)責(zé)人們,以為自己需要能提供好點(diǎn)子(idea)的產(chǎn)品經(jīng)理,但其實(shí)真正需要補(bǔ)齊的,是“垂直領(lǐng)域內(nèi)的需求認(rèn)知”。

為什么呢?因?yàn)榧僭O(shè)“碰巧”想到了好的點(diǎn)子(方向和需求定位),但如果沒有深度的行業(yè)認(rèn)知,老板(和其他人)也根本不知道如何認(rèn)知評估這個(gè)idea是否靠譜、以及為什么。

即使公司愿意投入一定資源去做MVP,仍然95%的概率會因?yàn)楦悴磺宄虑榈年P(guān)鍵點(diǎn)、最核心的指標(biāo)是啥,而錯(cuò)過機(jī)會——淺嘗輒止的把項(xiàng)目砍掉,直到1、2年后再后悔沒有持續(xù)投入。

大家可以回顧下自己所在公司/項(xiàng)目,是否經(jīng)歷過這種事?

所以,產(chǎn)品經(jīng)理是需要有行業(yè)know-how(垂直領(lǐng)域內(nèi)的需求認(rèn)知),在“某個(gè)需求點(diǎn)是真實(shí)存在還是偽需求”這種問題上,直接給團(tuán)隊(duì)答案的,讓大家少走彎路,以及在關(guān)鍵決策場合,還能夠扛住老板的壓力、堅(jiān)持自己的判斷。

前面《后GPT時(shí)代,多模態(tài)是最大的機(jī)會》原文中提到,“普通用戶的想象力是無窮無盡的。只要有更好的表達(dá)方式和更簡單的工具,用戶就一定能再次創(chuàng)造數(shù)字內(nèi)容的新風(fēng)潮?!久茉谟冢壳暗募夹g(shù)工具無法滿足用戶旺盛的創(chuàng)造需求……普通用戶很難效法。”

從產(chǎn)品認(rèn)知看,我個(gè)人對此是存疑的。因?yàn)?strong>對于大多數(shù)普通用戶,可能并沒有那么大的“創(chuàng)意/想象力”能力,也沒有那么強(qiáng)的需求迫切度去“發(fā)揮創(chuàng)意”。

結(jié)果視角,也許會存在“涌現(xiàn)出想象力效果”的情況,但是,原因不一定是“工具”,還可能是因?yàn)椤坝脩?AI工具+社區(qū)”,類似Midjourney那樣。

真正有更大、更明確需求的,是“有私域知識庫的個(gè)人IP”。

在《我看到的AIGC落地機(jī)會(3)_IP知識庫+ChatGPT》中,我有提到:

從產(chǎn)品角度看,似乎大家都容易想到這個(gè)點(diǎn);從技術(shù)角度看,有技術(shù)同行說,技術(shù)不是門檻,數(shù)據(jù)才是。

我想說的是,數(shù)據(jù)是核心壁壘之一,但這事成敗因素,更在于“對IP內(nèi)容生意的know-how”

我做AI產(chǎn)品經(jīng)理社群馬上6年了,直到最近大半年,我才開始明白,IP能力和專業(yè)(內(nèi)容)能力,其實(shí)是2個(gè)不同維度的東西。這個(gè)世界里,專業(yè)牛人非常多,但能基于內(nèi)容賺到錢的專業(yè)牛人并不多;很多粉絲量很大的IP/自媒體,其實(shí)并沒有那么賺錢。

原文中,結(jié)合自身6年IP社群運(yùn)營經(jīng)驗(yàn)教訓(xùn),我最終想到了3個(gè)貌似講得通的產(chǎn)品/商業(yè)定位。

想做這個(gè)方向的技術(shù)或產(chǎn)品同行估計(jì)不少,但如果沒有這方面的親身體驗(yàn),可能會走一些彎路。

二、技術(shù)路徑:需要繼續(xù)把模型(和數(shù)據(jù))變大?

原文提到:“將這種智能范式擴(kuò)展到三維、四維的時(shí)空范圍,復(fù)雜度的增長是指數(shù)級別的。因此,在視頻、3D、動畫序列等較文、圖更復(fù)雜的多模態(tài)領(lǐng)域,技術(shù)迭代并收斂到一個(gè)大一統(tǒng)方法的時(shí)間周期可能會相當(dāng)長,三至五年只是我的保守估計(jì)?!?/p>

對這點(diǎn),好像也有點(diǎn)存疑。不僅因?yàn)?/p>

1. 現(xiàn)在已經(jīng)是大煉鋼鐵的狀況了,資源耗損巨大,再加碼的話,不對勁。

2. 本來很多從業(yè)者就認(rèn)為,“小樣本”學(xué)習(xí),才是真正智能的屬性之一。

3. 本來很多人認(rèn)為“多模態(tài)”是必須的,但OpenAI的工作和認(rèn)知告訴我們,在文本層面“預(yù)測下一個(gè)字符”,“壓縮效率”就約等于/等效于“泛化效率”。甚至可以說,在“心”的層面,文本/圖像/視頻本身就是“全息/等效”的。

而且,公開報(bào)道中有過相關(guān)的細(xì)節(jié):

1、OpenAI首席科學(xué)家Ilya Sutskever:訓(xùn)練模型一定會在某個(gè)時(shí)刻,用完所有 tokens,到那時(shí),就需要其他方法來訓(xùn)練模型,而不是更多數(shù)據(jù)……我(Ilya)對多模態(tài)性的必要性的看法:它并非必須,但絕對有用。這是一個(gè)值得追求的好方向,我只是不認(rèn)為應(yīng)該將它們分得如此明確。

2、OpenA聯(lián)合創(chuàng)始人Greg Brockman:一般以為問題在于訓(xùn)練數(shù)據(jù)太少,但我們有時(shí)突然意識到,原來問題出在基本假設(shè)上(從第一性原理出發(fā))。

當(dāng)然,原文中作者也提到,“也許必須采用新算法設(shè)計(jì)來解決復(fù)雜度爆炸的問題?;蛘?,因?yàn)槟B(tài)間知識遷移的可能性,讓AI更加深入理解訓(xùn)練數(shù)據(jù)豐富的低維度文、圖信息,一定可以幫助AI更快地從高維度信息中學(xué)習(xí)知識?!?/p>

三、產(chǎn)品設(shè)計(jì):有沒有新的認(rèn)知或方法論?

AI 2.0時(shí)代,一定會有新的產(chǎn)品設(shè)計(jì)思路或想法,比如《AI產(chǎn)品方法論之“由用戶來完成AI產(chǎn)品設(shè)計(jì)的最后一公里”》。

對于多模態(tài),目前業(yè)內(nèi)還沒有沉淀可供參考。

我也只是曾經(jīng)有個(gè)相關(guān)的靈感點(diǎn):在特殊場景下,任何單一模態(tài)disable了,整體還可以繼續(xù)交互——類比4個(gè)引擎的飛機(jī),壞了一個(gè),還可以繼續(xù)飛!

專欄作家

hanniman,微信公眾號:hanniman,人人都是產(chǎn)品經(jīng)理專欄作家,前圖靈機(jī)器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理,前騰訊產(chǎn)品經(jīng)理,10年AI經(jīng)驗(yàn),13年互聯(lián)網(wǎng)背景;作品有《AI產(chǎn)品經(jīng)理的實(shí)操手冊》(AI產(chǎn)品經(jīng)理大本營的4年1000篇干貨合輯)、200頁P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!