【入門科普】必了解的 20 個 AI 術(shù)語解析(上)

李文杰
0 評論 1206 瀏覽 11 收藏 9 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

AI時代到來,作為職場人的我們,或許可以了解一些AI術(shù)語名詞。這篇文章里,作者就介紹了一些概念,不妨來看看。

本文專為非技術(shù)背景的AI愛好者設(shè)計,旨在深入淺出地介紹AI的基礎(chǔ)概念和關(guān)鍵技術(shù),從最基礎(chǔ)的邏輯回歸到復(fù)雜的Transformer模型,帶您一步步解鎖AI技術(shù)的奧秘。

一、邏輯回歸

如果你想通過人工智能判斷某人是否會患糖尿病,則邏輯回歸可以通過綜合分析用戶的年齡、體重、胰島素水平等等來給出一個0~1的概率值,如果閾值設(shè)定為0.7,則高于0.7的我們就歸類為高風(fēng)險人群,以便更早期的干預(yù)和管理風(fēng)險。

二、線性回歸

邏輯回歸解決的是0到1的概率問題,而很多時候是我們需要具體的值,比如你在擺攤賣冰激凌,你注意到溫度越高,你賣出去的冰激凌越多。

線性回歸就像是你用尺子和鉛筆在歷史銷售數(shù)據(jù)的散點圖表上畫一條直線,盡量讓這條線貼近所有的銷售點(溫度是x,銷售額是y)。這樣,你就可以用這條線預(yù)測,在任何給定溫度下,你大概能賣多少冰激凌。

三、多元多項式回歸

你一定發(fā)現(xiàn)了在前文冰激凌案例中,很顯然溫度對收入的影響并不是直線而是一個曲線,并且也不止溫度這一個自變量。多元多項式回歸就是一種可以綜合考慮多個X自變量并且能得出非線性關(guān)系的機器學(xué)習(xí)算法。比如訓(xùn)練一個評估房價的模型,那么自變量就有:面積、房齡、距離地鐵站距離、樓層數(shù)等等,自變量越多,模型越能去模擬真實世界。

四、決策樹

本文前三節(jié)都是基于簡單的數(shù)學(xué)公式的模型,這些模型要求輸入數(shù)據(jù)是數(shù)值型,這意味著在處理性別、城市、疾病類別等非數(shù)值型時,需要進(jìn)行數(shù)值轉(zhuǎn)化的預(yù)處理,這增加了算法復(fù)雜度,造成過擬合等問題。

決策樹可以直接處理分類特征,比如訓(xùn)練一個診斷心臟病類型的算法模型,我們搭建有很多決策點比如:患者的胸痛類型、心電圖結(jié)果,這些決策點就構(gòu)成了一個決策樹,每個葉節(jié)點代表一個特定的心臟病診斷。需要注意的是決策樹和前三種算法并不是互斥關(guān)系,決策樹的葉節(jié)點上可以包含獨立的算法模型。

五、隨機森林

就像醫(yī)生之間對于同一個癥狀會有不同的疾病診斷一樣,對于同一個問題會無數(shù)種決策樹方式,如果醫(yī)生用投票的形式來最終決定是哪一個疾病診斷,這種診斷的準(zhǔn)確性往往比一個醫(yī)生的準(zhǔn)確率高很多,這種集成多顆決策樹的模型構(gòu)建方式,叫做隨機森林。

為什么叫“隨機”森林呢?好比每個醫(yī)生都是一個決策樹,就算他們是從一個學(xué)校培養(yǎng)出來的,但他們個人接觸到的病例樣本不同,個人性格傾向于保守還是樂觀也不同,這種隨機性讓每一個決策樹結(jié)構(gòu)都不同,所以被稱之為隨機森林。

六、聚類

在機器學(xué)習(xí)中訓(xùn)練模型就好比是用“大量已知的y和x”去倒推出在“y=f(x)”中的f,比如訓(xùn)練一個短視頻推薦算法,x是用戶數(shù)據(jù),y是用戶興趣標(biāo)簽,如果y的顆粒度越精準(zhǔn)那么推薦的視頻也就越符合他的胃口。

但在實際中,我們很難去給用戶標(biāo)注合適的y來準(zhǔn)備足夠的訓(xùn)練集。此時,就常用到聚類算法,他可以自行從大量x中依據(jù)數(shù)據(jù)之間的相似度來劃分成多個類別,聚類常用在機器學(xué)習(xí)的數(shù)據(jù)預(yù)處理階段。

七、降維

假設(shè)你有一個信息超級全的地圖,包含馬路、鐵路、景點、學(xué)校、醫(yī)院、甚至地形海拔,但是你只是想知道從人民廣場到陸家嘴要坐幾號線而已,那最適合你的就只是地鐵路線圖而已,這種簡化數(shù)據(jù)但保留重要信息的過程就叫做降維,人工智能對信息的降維可以減少計算成本(省電費、省顯卡),比如,你要訓(xùn)練一個給臉部顏值打分的模型,那么采集到的照片背景、用戶的衣服顏色等等就是多余的數(shù)據(jù)。

八、卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)最典型的運用是圖像識別,它模仿人的思維,自動捕捉典型特征,比如邊緣、角落、紋理等,然后他們的發(fā)現(xiàn)會被匯總起來,以幫助整個團(tuán)隊理解整張圖片的內(nèi)容。比如我們判斷照片上的動物是不是貓,我們會最先想到的是看它的三角形的耳朵、圓胖的臉蛋、小鼻子,綜合這些特征后判斷是不是貓。

九、循環(huán)神經(jīng)網(wǎng)絡(luò)

CNN適合處理圖像或視頻這種網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適合處理文本、語音、天氣這類有時間順序序列數(shù)據(jù),它具有一定的記憶能力能夠理解上下文關(guān)系。這個算法的缺點是容易“梯度爆炸”或者“梯度消失”,“梯度爆炸”可以類比為在閱讀小說時,對之前章節(jié)非必要的細(xì)節(jié)過于沉浸無法忘懷,以至于影響了對當(dāng)前內(nèi)容的理解。而“梯度消失”則相當(dāng)于你很快就忘記了之前的內(nèi)容,使得理解當(dāng)前內(nèi)容變得困難。

十、Transformer

Transformer模型通過其獨特的自注意力機制可以解決CNN中常有的“梯度爆炸”和“梯度消失”的問題,并且它不需要像RNN一樣按順序處理數(shù)據(jù),而是可以一次性讀取全部數(shù)據(jù)。就像是在一個巨大的圖書館里尋找信息,RNN是一本一本去讀,而Transformer可以一次性看完,并迅速找到你需要的信息。這種方法特別適合處理語言,因為它需要同時理解句子中的每個詞及其上下文關(guān)系。

本文由 @李文杰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
60427人已学习20篇文章
想转行做产品经理,这个专题值得一看,看看前人是怎么做到的。
专题
124265人已学习33篇文章
小程序时代,产品经理和运营人员该如何拥抱这种变化?
专题
70278人已学习13篇文章
什么是产品的商业模式,不同类型的产品在商业模式上有什么区别?
专题
15814人已学习12篇文章
采购管理是对采购业务过程进行组织、实施与控制的管理过程。本专题的文章提供了采购管理设计指南。
专题
11617人已学习12篇文章
本专题的文章分享了营销增长指南。
专题
53407人已学习19篇文章
让我们来看一下Axure的高端操作:用Axure实现游戏功能