從開發(fā)視角,思考AI產(chǎn)品落地的方向
隨著AI技術(shù)的飛速發(fā)展,如何將AI能力有效集成到產(chǎn)品中,成為開發(fā)者和產(chǎn)品經(jīng)理面臨的重要課題。本文從開發(fā)視角出發(fā),深入探討AI產(chǎn)品落地的方向和策略。作者通過分析AI與傳統(tǒng)產(chǎn)品的正交關系,提出了AI Agent、AI生態(tài)、AI+和私人AI助理等幾個具有潛力的AI產(chǎn)品方向,并結(jié)合實際案例,詳細闡述了這些方向的技術(shù)實現(xiàn)和應用場景。
作為一名移動客戶端開發(fā),一直以龍哥為榜樣思考產(chǎn)品層面的問題,大模型發(fā)展至今,我也一直在思考怎么以AI的能力,制作出一些帶magic的小玩意。
一、認知:什么樣的產(chǎn)品應該用AI去做(AI產(chǎn)品的方向應該怎么做)
顯然并不是所有的產(chǎn)品都適合用AI去集成。
在chatGpt3剛出來的時候,因為gpt效果太差,且費用太貴,曾經(jīng)和朋友聊天的時候,有打算針對特定問題集成答案,用戶命中問題則直接回復答案。
幸好當時沒做,以我現(xiàn)在的認知來看,這種方案就完全是螳臂當車,類似于打算在LLM洪流之下,想通過個人來接住洪流的沖擊力,這樣的產(chǎn)品顯然會被LLM成長起來的能力直接碾壓過去。
夾在傳統(tǒng)互聯(lián)網(wǎng)和LLM之間,到底怎么樣找一個落腳點去把兩者更好的集成?
我糾結(jié)了很久,也實驗過一些demo,最后最后,我在Manus創(chuàng)始人分享的一個視頻切片里,找到了我自認為問題的答案:
大家可以看圖,LLM的能力應該要跟我們做的產(chǎn)品能力是正交的。什么叫正交?
學過數(shù)學的我們都知道,就是兩個方向是完全互不影響的,比如做一個AI的產(chǎn)品,如果后續(xù)會因為LLM能力過于強大(比如多模態(tài)、比如提速、比如低成本)而倒掉,那這個產(chǎn)品和LLM就不是正交的。
但如果我們的產(chǎn)品,會隨著LLM的能力強大,產(chǎn)品能力也變得更強大,那么這樣的產(chǎn)品定位就是正交的。
有了這個大思路,在去看業(yè)內(nèi)很多的AI產(chǎn)品,有些產(chǎn)品甚至一眼就能看到它的生命終點。
二、具體落腳:哪些方向做AI產(chǎn)品比較絲滑?
標題里所說的”大的認知前提”,指的就是”AI產(chǎn)品能力應該和LLM是正交的”。
好,那接下來聊聊我們?nèi)绻鲆粋€AI產(chǎn)品,大概可以從哪幾個方向出發(fā)(只是我個人的思考,歡迎大家補充討論)。
1. AI Agent
使用過Manus這款產(chǎn)品的同學,應該十分清楚 AI Agent 這個方向的重要意義了,沒使用過的同學建議去Manus官網(wǎng)看看示例。
AI Agent 領域的技術(shù)實現(xiàn)我有所了解,技術(shù)實現(xiàn)不是很難,難在workflow的構(gòu)建,以及成本(也是受workflow影響)。
拆解AI Agent的工作流↑,我們可以發(fā)現(xiàn)AI Agent確實幫我們做了非常多的事情,尤其是「收集信息」部分,是AI Agent的王炸級能力。
但AI Agent有目前有兩個方向的原罪,只要想著去做這個方向的產(chǎn)品,一定會碰到的兩個問題:甲方困境 和 深度癱瘓。
1)甲方困境
什么叫甲方困境,作為程序員的我們可能都清楚,做一個需求,最復雜是了解需求是什么,到底想要達到什么樣的效果,而寫代碼反而是最簡單的。
AI Agent也是一樣的,比如我們讓AI Agent寫一個”坦克大戰(zhàn)”,雖然這只是簡單的一句話,但”坦克大戰(zhàn)”從一句話到具體交付,中間要商量的細節(jié)可太多了,就不論UI樣式,光是策略方案就已經(jīng)夠復雜的了。
但 AI Agent 無論是從LLM模型本身,還是離線產(chǎn)品的宣傳理念,對于在工作過程中怎么樣盡可能絲滑反問使用人需求,都是一個難題。
2)深度癱瘓
深度癱瘓也很好理解,只要是用過chatGPT api寫demo的同學都知道,當你的對話輪次越來越多時,同樣的一個問題,你消耗的token會越來越多。
為什么?這是你要把你的上下文帶給AI,讓他在回答里當下這句話的時候,能記住你之前說了什么。
所以,足夠深度的上下文信息,足以讓AI的使用變得又貴又慢,這是AI基礎實現(xiàn)Transformer本身導致的,所有歷史對話拼接為長序列輸入。
當然了,現(xiàn)在主流的AI Agent,是混合了 長序列輸入 和 檢索增強生成(RAG) 方案的,尤其是「收集信息」,
基本都是由模型自己通過 embedding 轉(zhuǎn)成向量數(shù)據(jù)庫來進行學習,這是一個折中的方案,但RAG的方案會讓AI使用起來沒那么聰明(相比長序列)。
2. AI生態(tài)
AI生態(tài)指的是在原先能夠閉環(huán)的生態(tài)里,使用AI打造AI驅(qū)動的生態(tài)。比如:各家的App,或者更大一點:手機。
可能看到這里你腦海中已經(jīng)想象出一個畫面:”你早上起來打開手機,對手機AI說,幫我點一份早餐,和昨天口味一樣,備注多放點辣”
但大家有沒有想過,這個技術(shù)很難嗎? 為啥LLM誕生之前,不做這樣的能力?
其實以AI手機為例,既然是閉合生態(tài),理論上所有指令集都是可以串聯(lián)的,所以這個串聯(lián)調(diào)用的能力,早都已經(jīng)可以搞定了。
之所以在LLM時代,要把這件事重新提起,最根本的原因是因為LLM “聽得懂人話了”,LLM通過超大參數(shù)訓練,具備了目前AI界最強大的一個能力,”理解語義”。
“理解語義“在不同時代有不同的視線,我將之分為3個時代:驚喜的1.0時代、停滯的2.0時代、重生的3.0時代。
驚喜的1.0時代
這個時代機器聽懂人類語言的方式,依賴的技術(shù)是”語音量化”,機器通過將收集到的語音進行量化,并和自己指令庫的指令集進行對比,如果匹配上了就執(zhí)行指令。
這個時代最大的問題,就是”精準匹配”。以我家里一個松下取暖器為例,系統(tǒng)給它內(nèi)置的指令是”松下取暖氣,打開取暖器”。
但如果我說成”松下取暖氣,請打開”,它就完全聽不懂我在說什么,更不用主動關懷的AI理解了。
停滯的2.0時代
2.0時代的巔峰也是NLP的巔峰,NLP曾經(jīng)根據(jù)有限的聚類效果解決過一些問題,但基本僅限于玩具場景,
在準確度要求99%以上的場景,沒有哪個公司敢把產(chǎn)品真正放上去。
這個時代的經(jīng)典代表就是各家的AI語音助理,比如智障Siri、雷軍兒子的小愛同學等等。
重生的3.0時代
LLM 最大的特點就是更理解人類的表達了。
在1.0時代,如果我們的系統(tǒng)有10個指令,那么用戶只能使用10句話對其進行驅(qū)動。 在2.0時代,如果我們的系統(tǒng)有10個指令,那么用戶大概可以使用10*n句話對其進行驅(qū)動(n的值取決于工程師配置的相似數(shù)據(jù)庫)。 在3.0時代,如果我們的系統(tǒng)有10個指令,那么用戶可以使用無限種方式對其進行驅(qū)動。這就是LLM最大的作用!
好,依舊來舉例說明,我是一位極氪001汽車的車主,在我的車機升級到大模型方案之前,所有車主都會吐槽車機非常笨,聽不懂人話。
但車機升級到大模型方案之后,和車機對話的體感普遍更好了,比如我們上車后對車機說: “今天工作有點累,我現(xiàn)在有點熱”
那么車機會回復:”是否要打開休息模式?空調(diào)溫度已經(jīng)為你下調(diào)了2度”。
能理解這個例子嗎,雖然車機依舊還是”打開休息模式、調(diào)節(jié)空調(diào)溫度”這樣傳統(tǒng)的指令,但人們驅(qū)動它的方式變得更加多元且精準了。
所以回到AI生態(tài)來看,閉環(huán)生態(tài)下的指令集觸手可得,指令集所搭建的高效率武器也不是瓶頸,但現(xiàn)在可以觸發(fā)開槍的技術(shù)誕生了,那就LLM。
3. AI+
AI+ 的思路其實和幾年前互聯(lián)網(wǎng)+的口號一樣,但AI+的顛覆效果并不如互聯(lián)網(wǎng)+,AI+在我看來,是補齊傳統(tǒng)移動互聯(lián)網(wǎng)產(chǎn)品功能的一些短板。
既然是優(yōu)化原有功能的體驗,那么接下來的做事方法論也就很簡單了:
- 收集原有互聯(lián)網(wǎng)產(chǎn)品遺留的痛點難點、通過畫甘特圖評估卡點任務
- 整理AI的基建能力,比如:聚合相似、文本總結(jié)等
- 將第1步收集的訴求 和 第2步整理的AI基建 進行碰撞,看看有沒有可以match上的。
AI是一個很好的生產(chǎn)力工具,尤其是在文本處理和總結(jié)上,我們平時的工作在處理各種各樣的群消息,那么在群消息這里是不是可以引入AI能力呢?
4. 私人AI助理
私人AI助理是我覺得非常驚艷,但現(xiàn)在被大家低估的一個AI落地點,在我看來,部署本地AI知識庫的浪潮,應該要超過部署Nas。
每個人都想要一個既懂自己,又能輔助自己成長,又對自己絕對忠誠的AI助手(類似鋼鐵俠中的Jarvis,我給自己的私人AI助理也是起名叫Jarvis hhh)。
私人AI助理屬于一個基建平臺,在該平臺上可以衍生出非常多的能力,目前我會讓我的AI助理定期review我的代碼,針對我所學習的內(nèi)容進行深化提問等等。
甚至于在我的設想中,以后每個公司都會出現(xiàn)一個公司級別的私人AI助理(或者應該叫超級大腦),類似于生化危機電影中的紅色皇后。
因為只有AI才能源源不斷接收外界的信息,只有AI才能針對如此多的信息進行調(diào)度,提前對潛在風險進行預警。
好,一不小心光整理對AI產(chǎn)品的思緒就寫了那么多,希望對大家能有點幫助。
本文由 @冰以東 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
要明確應用場景:確定AI產(chǎn)品將應用于哪些具體場景,例如醫(yī)療影像診斷、智能客服、自動駕駛、推薦系統(tǒng)等。每個場景都有其獨特的技術(shù)要求和數(shù)據(jù)特點。
用戶需求:深入了解目標用戶的需求和痛點,設計功能時要確保產(chǎn)品能夠解決實際問題,提升用戶體驗。
感謝分享,但你說的太泛了,看似說了很多,但其實沒什么信息量,隨便找一個大學生都能說出這句話。建議還是好好思考自己的體系