欧美性爱视频18P,99东京热这里有精品

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

關于多模態(tài)AI的三點產(chǎn)品視角反思

黃釗hanniman

2023-08-30

0 評論 4177 瀏覽 4 收藏

多模態(tài)AI技術(shù)被認為是AI發(fā)展的下一個重要里程碑，具有無限潛力。本文將探討多模態(tài)AI在需求定位、技術(shù)路徑和產(chǎn)品設計方面的關鍵問題，并提出相關思考和建議。

最近《后GPT時代，多模態(tài)是最大的機會》一文中，行業(yè)前輩王老師提到，多模態(tài)AI的上下游任務與技術(shù)路線之間，會有排列組合游戲，處于爆發(fā)的早期……是大模型科研與工程領域最好的彎道超車機會。

關于多模態(tài)，我個人應該是業(yè)內(nèi)最早關注到的從業(yè)者之一（至少6年前）。本文，將從需求定位、技術(shù)路徑、產(chǎn)品設計三方面、來分享一些AI產(chǎn)品經(jīng)理視角的反思。

引子：六年前的“多模態(tài)”還相對模糊（PPT+專利+demo）

在2017年4月的200頁PPT《人工智能產(chǎn)品經(jīng)理的新起點》中，我提及過“多模態(tài)”，如下面2張圖：

在2017年10月的120頁PPT《產(chǎn)品視角下，現(xiàn)階段的AI如何落地》中，也分享過Andrei Cheremskoy提出的“組合矩陣”方法，能系統(tǒng)性研究深度學習的應用機會。

同樣在2017年，我寫了專利“多模態(tài)虛擬機器人的內(nèi)容生成的方法和系統(tǒng)”。

甚至在2016年4月，我還在兒童機器人上，做過“中英文混合對話”+“多模態(tài)交互”的最初級demo。（可能是當年技術(shù)條件下的最佳demo效果了，最近在星球里分享了當時的演示視頻，對于多模態(tài)，我個人是認可這個大方向的；下面，僅是想從產(chǎn)品視角，分享些不同的認知，供大家綜合參考。

一、需求定位：如何規(guī)避“拿著錘子找釘子”的風險？

正面看，很容易覺得排列組合的機會點太多了，容易有過于“理所應當”的風險。此時，可能更需要從產(chǎn)品/需求視角出發(fā)，看看咱們到底有哪些非共識的行業(yè)know-how。

最近，我分享的《大模型時代，產(chǎn)品經(jīng)理的什么能力會成為稀缺（1）》一文中提到：

這一波AI 2.0，一定不是簡單的ChatGPT化、CUI化。而是需要先把業(yè)務吃透，再看可以如何借用AI、對話式交互的能力來解決問題。

就像移動互聯(lián)網(wǎng)時代，不是把web內(nèi)容簡單搬到手機app上。

現(xiàn)在，也不是智能汽車那種簡單的“所見即可說”，全部用語音操控的方式實現(xiàn)一遍。

作為產(chǎn)品經(jīng)理，一開口，一定不要僅僅是what層面的“可以做什么”。

作為產(chǎn)品經(jīng)理，一開口，就要說場景、用戶、需求、細節(jié)、你有什么特別的洞察等等這些。

沒有why和how支撐的what，沒有意義。

這背后，更實戰(zhàn)的干貨認知，是我在《AI創(chuàng)業(yè)公司的妄念：招個AI產(chǎn)品經(jīng)理來想idea》中分享的這幾段話：

老板/部門負責人們，以為自己需要能提供好點子（idea）的產(chǎn)品經(jīng)理，但其實真正需要補齊的，是“垂直領域內(nèi)的需求認知”。

為什么呢？因為假設“碰巧”想到了好的點子（方向和需求定位），但如果沒有深度的行業(yè)認知，老板（和其他人）也根本不知道如何認知評估這個idea是否靠譜、以及為什么。

即使公司愿意投入一定資源去做MVP，仍然95%的概率會因為搞不清楚事情的關鍵點、最核心的指標是啥，而錯過機會——淺嘗輒止的把項目砍掉，直到1、2年后再后悔沒有持續(xù)投入。

大家可以回顧下自己所在公司/項目，是否經(jīng)歷過這種事？

所以，產(chǎn)品經(jīng)理是需要有行業(yè)know-how（垂直領域內(nèi)的需求認知），在“某個需求點是真實存在還是偽需求”這種問題上，直接給團隊答案的，讓大家少走彎路，以及在關鍵決策場合，還能夠扛住老板的壓力、堅持自己的判斷。

前面《后GPT時代，多模態(tài)是最大的機會》原文中提到，“普通用戶的想象力是無窮無盡的。只要有更好的表達方式和更簡單的工具，用戶就一定能再次創(chuàng)造數(shù)字內(nèi)容的新風潮?！久茉谟?，目前的技術(shù)工具無法滿足用戶旺盛的創(chuàng)造需求……普通用戶很難效法?！?/p>

從產(chǎn)品認知看，我個人對此是存疑的。因為對于大多數(shù)普通用戶，可能并沒有那么大的“創(chuàng)意/想象力”能力，也沒有那么強的需求迫切度去“發(fā)揮創(chuàng)意”。

結(jié)果視角，也許會存在“涌現(xiàn)出想象力效果”的情況，但是，原因不一定是“工具”，還可能是因為“用戶+AI工具+社區(qū)”，類似Midjourney那樣。

真正有更大、更明確需求的，是“有私域知識庫的個人IP”。

在《我看到的AIGC落地機會（3）_IP知識庫+ChatGPT》中，我有提到：

從產(chǎn)品角度看，似乎大家都容易想到這個點；從技術(shù)角度看，有技術(shù)同行說，技術(shù)不是門檻，數(shù)據(jù)才是。

我想說的是，數(shù)據(jù)是核心壁壘之一，但這事成敗因素，更在于“對IP內(nèi)容生意的know-how”。

我做AI產(chǎn)品經(jīng)理社群馬上6年了，直到最近大半年，我才開始明白，IP能力和專業(yè)（內(nèi)容）能力，其實是2個不同維度的東西。這個世界里，專業(yè)牛人非常多，但能基于內(nèi)容賺到錢的專業(yè)牛人并不多；很多粉絲量很大的IP/自媒體，其實并沒有那么賺錢。

原文中，結(jié)合自身6年IP社群運營經(jīng)驗教訓，我最終想到了3個貌似講得通的產(chǎn)品/商業(yè)定位。

想做這個方向的技術(shù)或產(chǎn)品同行估計不少，但如果沒有這方面的親身體驗，可能會走一些彎路。

二、技術(shù)路徑：需要繼續(xù)把模型（和數(shù)據(jù)）變大？

原文提到：“將這種智能范式擴展到三維、四維的時空范圍，復雜度的增長是指數(shù)級別的。因此，在視頻、3D、動畫序列等較文、圖更復雜的多模態(tài)領域，技術(shù)迭代并收斂到一個大一統(tǒng)方法的時間周期可能會相當長，三至五年只是我的保守估計?！?/p>

對這點，好像也有點存疑。不僅因為

1. 現(xiàn)在已經(jīng)是大煉鋼鐵的狀況了，資源耗損巨大，再加碼的話，不對勁。

2. 本來很多從業(yè)者就認為，“小樣本”學習，才是真正智能的屬性之一。

3. 本來很多人認為“多模態(tài)”是必須的，但OpenAI的工作和認知告訴我們，在文本層面“預測下一個字符”，“壓縮效率”就約等于/等效于“泛化效率”。甚至可以說，在“心”的層面，文本/圖像/視頻本身就是“全息/等效”的。

而且，公開報道中有過相關的細節(jié)：

1、OpenAI首席科學家Ilya Sutskever：訓練模型一定會在某個時刻，用完所有 tokens，到那時，就需要其他方法來訓練模型，而不是更多數(shù)據(jù)……我（Ilya）對多模態(tài)性的必要性的看法：它并非必須，但絕對有用。這是一個值得追求的好方向，我只是不認為應該將它們分得如此明確。

2、OpenA聯(lián)合創(chuàng)始人Greg Brockman：一般以為問題在于訓練數(shù)據(jù)太少，但我們有時突然意識到，原來問題出在基本假設上（從第一性原理出發(fā)）。

當然，原文中作者也提到，“也許必須采用新算法設計來解決復雜度爆炸的問題?；蛘?，因為模態(tài)間知識遷移的可能性，讓AI更加深入理解訓練數(shù)據(jù)豐富的低維度文、圖信息，一定可以幫助AI更快地從高維度信息中學習知識?！?/p>

三、產(chǎn)品設計：有沒有新的認知或方法論？

AI 2.0時代，一定會有新的產(chǎn)品設計思路或想法，比如《AI產(chǎn)品方法論之“由用戶來完成AI產(chǎn)品設計的最后一公里”》。

對于多模態(tài)，目前業(yè)內(nèi)還沒有沉淀可供參考。

我也只是曾經(jīng)有個相關的靈感點：在特殊場景下，任何單一模態(tài)disable了，整體還可以繼續(xù)交互——類比4個引擎的飛機，壞了一個，還可以繼續(xù)飛！

專欄作家

hanniman，微信公眾號：hanniman，人人都是產(chǎn)品經(jīng)理專欄作家，前圖靈機器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理，前騰訊產(chǎn)品經(jīng)理，10年AI經(jīng)驗，13年互聯(lián)網(wǎng)背景；作品有《AI產(chǎn)品經(jīng)理的實操手冊》（AI產(chǎn)品經(jīng)理大本營的4年1000篇干貨合輯）、200頁PPT《人工智能產(chǎn)品經(jīng)理的新起點》。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，不得轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App