統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法
統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法一
最近工作了一段時(shí)間,今天跟大家討論一下關(guān)于“規(guī)則與模型”的問(wèn)題。
大家肯定都知道,機(jī)器學(xué)習(xí)方法主要分兩類(lèi),一類(lèi)是基于統(tǒng)計(jì)的方法,比如貝葉斯、KNN等,都是對(duì)數(shù)據(jù)的某種特征進(jìn)行歸類(lèi)計(jì)算得到數(shù)據(jù)劃分的依據(jù)的;另一類(lèi)是基于規(guī)則的方法,比如,語(yǔ)義規(guī)則,語(yǔ)法規(guī)則或者業(yè)務(wù)規(guī)則等等,這些規(guī)則主要是根據(jù)數(shù)據(jù)本身的特征人為地對(duì)分類(lèi)細(xì)節(jié)進(jìn)行限定,沒(méi)有什么太高深的理論,但是實(shí)用性很強(qiáng)。當(dāng)然,我覺(jué)得還有第三種方法,就是基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的方法,比如關(guān)聯(lián)規(guī)則,apriori方法,或者決策樹(shù)方法。這些方法在分類(lèi)或者求變量關(guān)系的時(shí)候本質(zhì)上是基于規(guī)則分類(lèi),但是在訓(xùn)練過(guò)程中卻是使用統(tǒng)計(jì)的方法的。比如apriori方法,該方法本身就是求規(guī)則的一種方法,但該方法訓(xùn)練的時(shí)候是需要對(duì)各種關(guān)聯(lián)特征進(jìn)行統(tǒng)計(jì)的。訓(xùn)練完畢后尋找強(qiáng)關(guān)聯(lián)性的特征可以進(jìn)行分類(lèi),因?yàn)槲矣X(jué)得找出哪些是強(qiáng)關(guān)聯(lián)哪些不是強(qiáng)關(guān)聯(lián)就是一個(gè)分類(lèi)的過(guò)程。再比如決策樹(shù),同樣的道理,決策樹(shù)本身得到的那棵樹(shù)就是一棵規(guī)則樹(shù),但是在尋找樹(shù)的分裂屬性上,無(wú)論是ID3還是C4.5,都是基于統(tǒng)計(jì)方法的。我認(rèn)為這種通過(guò)訓(xùn)練出的規(guī)則進(jìn)行統(tǒng)計(jì)分類(lèi)的方法就是統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。那么這三類(lèi)方法哪些是比較有效的呢,或者說(shuō)哪些是比較適合大部分?jǐn)?shù)據(jù)的呢?
我的個(gè)人理解是,沒(méi)有。我們?cè)趯W(xué)校里寫(xiě)paper,最主要的任務(wù)有三:第一,提高算法性能;第二,提高算法對(duì)數(shù)據(jù)的匹配度;第三,提高數(shù)據(jù)對(duì)算法的匹配度。舉個(gè)例子來(lái)說(shuō),我用SVM對(duì)新浪微博文本做情感分析,要么改進(jìn)SVM核心算法,提高分類(lèi)精度;要么對(duì)SVM選取特征的方法或空間構(gòu)造的方法進(jìn)行改進(jìn),提高分類(lèi)精度;要么就是直接改進(jìn)數(shù)據(jù)特征提取方式,提高數(shù)據(jù)對(duì)分類(lèi)器的匹配度。但是,不管是哪一種方法,都要滿(mǎn)足最小泛化閾值。也就是說(shuō),對(duì)訓(xùn)練數(shù)據(jù)之外的測(cè)試數(shù)據(jù)的分類(lèi)準(zhǔn)確度一定要滿(mǎn)足最低要求。我們把訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的概念擴(kuò)大一下,如果我們把要訓(xùn)練的某類(lèi)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),把該類(lèi)別之外的數(shù)據(jù)作為測(cè)試數(shù)據(jù),情況就完全不一樣了。比如,我把微博數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),把短信類(lèi)短文本數(shù)據(jù)作為測(cè)試數(shù)據(jù),雖然同樣都屬于短文本,但泛化值出奇的低。這是因?yàn)槲覀儫o(wú)論采用哪一種方法,數(shù)據(jù)都必須是封閉的,或者說(shuō)是相對(duì)封閉的。我們用分類(lèi)器或者基于統(tǒng)計(jì)的方法,其實(shí)主要就是為了提高泛化能力,因?yàn)榻y(tǒng)計(jì)一個(gè)詞的個(gè)數(shù)和一個(gè)數(shù)的個(gè)數(shù)的意義是一樣的。但是現(xiàn)在看來(lái),好像基于統(tǒng)計(jì)的方法的泛化能力還是有限。
導(dǎo)致這種現(xiàn)象的原因是什么呢?我在剛開(kāi)始學(xué)機(jī)器學(xué)習(xí)的時(shí)候就遇到一個(gè)很大的矛盾,既然SVM是最好的基于統(tǒng)計(jì)的分類(lèi)方法,而基于統(tǒng)計(jì)的方法的目的就是為了提高泛化能力,為什么在使用SVM的時(shí)候還是需要去適應(yīng)數(shù)據(jù)呢?在我理解,分類(lèi)方法對(duì)數(shù)據(jù)適應(yīng)的越多,規(guī)則成分就越多。我在最近做“技能詞識(shí)別”的時(shí)候使用了各種規(guī)則,嘗試了各種方法,然后我返現(xiàn)我犯了兩個(gè)個(gè)錯(cuò)誤,第一SVM是一種思想,不是一種具體的方法。思想本身無(wú)法使用,只有把它應(yīng)用到實(shí)踐才有價(jià)值;第二就是數(shù)據(jù)挖掘,或者機(jī)器學(xué)習(xí)的核心的重點(diǎn)永遠(yuǎn)是數(shù)據(jù)和思想的問(wèn)題,沒(méi)有方法的問(wèn)題。因?yàn)槲覀冞x擇的方法一定是要匹配數(shù)據(jù)的,目前來(lái)說(shuō)這是根本;方法也是必須要符合分類(lèi)某數(shù)據(jù)的核心思想的。由此我想出,無(wú)論是基于規(guī)則的方法還是基于統(tǒng)計(jì)的方法都是基礎(chǔ)理論,單純的使用基礎(chǔ)理論是沒(méi)有什么意義的,或者說(shuō)只能滿(mǎn)足很少一部分?jǐn)?shù)據(jù)的。只有結(jié)合實(shí)際情況,結(jié)合多種基礎(chǔ)理論,才能把機(jī)器學(xué)習(xí)運(yùn)用到實(shí)際當(dāng)中,因?yàn)槲覀兊暮诵氖菙?shù)據(jù),是實(shí)際情況。
所以說(shuō),如果們分類(lèi)的時(shí)候發(fā)現(xiàn)基于統(tǒng)計(jì)的方法遠(yuǎn)遠(yuǎn)不如基于規(guī)則的方法,或者反過(guò)來(lái),并不表明哪一種方法好,而是說(shuō)明某一種方法更適合目前要分析的數(shù)據(jù)。對(duì)完全不同數(shù)據(jù)類(lèi)型的數(shù)據(jù)進(jìn)行泛化我覺(jué)得目前來(lái)說(shuō)不太現(xiàn)實(shí),因?yàn)閷?duì)于真實(shí)的人來(lái)說(shuō)讓一個(gè)人根本不懂英語(yǔ)的中國(guó)人去理解英文那是不可能的。當(dāng)然,以后會(huì)發(fā)展到什么程度我是難以預(yù)料的,我的眼光目前也比較短淺看不到很深遠(yuǎn)的東西。但我覺(jué)得,如果某一天這種泛化能力實(shí)現(xiàn)了,人類(lèi)將走向滅絕。
對(duì)了,最后一點(diǎn),我覺(jué)得將“基于統(tǒng)計(jì)的學(xué)習(xí)方法”和“基于規(guī)則的學(xué)習(xí)方法”改為“基于統(tǒng)計(jì)的學(xué)習(xí)思想”和“基于規(guī)則的學(xué)習(xí)思想”更好一些。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法二
什么是感知機(jī)?
感知機(jī)是二類(lèi)分類(lèi)的線(xiàn)性分類(lèi)模型,輸入為實(shí)例的特征向量,輸出為實(shí)例的類(lèi)別,屬于判別模型。感知機(jī)1957年由Rosenblant提出,是神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的基礎(chǔ)
感知機(jī)的模型:
f(x)=sign(w*x+b)
w,b稱(chēng)之為感知機(jī)模型參數(shù),w叫做權(quán)值向量,b叫做偏置
感知機(jī)學(xué)習(xí)策略:定義損失函數(shù)并將損失函數(shù)最小化
對(duì)于感知機(jī)而言,它采用的是誤分類(lèi)點(diǎn)到分類(lèi)超平面的總距離。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法三
機(jī)器學(xué)習(xí)和統(tǒng)計(jì)簡(jiǎn)史
1946年,第一臺(tái)計(jì)算機(jī)系統(tǒng)ENIAC研制成功,帶來(lái)了巨大的變革性——使用機(jī)器進(jìn)行數(shù)值計(jì)算(而不是手動(dòng)使用鉛筆和紙進(jìn)行數(shù)值計(jì)算)。那個(gè)時(shí)候的人們的想法是人類(lèi)的思考(人力資本投入)和學(xué)習(xí)方式可以轉(zhuǎn)化成邏輯格式放到機(jī)器上運(yùn)行。
在上世紀(jì)50年代,阿蘭·圖靈,人工智能(AI)的父親,提出了一個(gè)測(cè)試方法,以衡量機(jī)器在學(xué)習(xí)和表現(xiàn)上像一個(gè)人的程度。在接下來(lái)的十年里,弗蘭克·羅森布萊特在康奈爾航空實(shí)驗(yàn)室提出了感知器的概念。這個(gè)革命性概念的中心思想是感知類(lèi)似于線(xiàn)性分類(lèi)。他指出通過(guò)大量的感知器我們可以創(chuàng)建一個(gè)強(qiáng)大的網(wǎng)絡(luò)模型,這就是我們現(xiàn)在所熟知的神經(jīng)網(wǎng)絡(luò)。
機(jī)器學(xué)習(xí)的研究發(fā)展到現(xiàn)在,已經(jīng)成為一個(gè)高精尖的電腦工程師為之努力的領(lǐng)域,他們?cè)谂μ剿鳈C(jī)器是否可以學(xué)習(xí)和模仿人類(lèi)大腦。機(jī)器學(xué)習(xí)如今被應(yīng)用于發(fā)現(xiàn)數(shù)據(jù)中的價(jià)值,使用在數(shù)不清的應(yīng)用中。
統(tǒng)計(jì)領(lǐng)域大約起始于十七世紀(jì)的中期。這門(mén)學(xué)科發(fā)展的中心思想是測(cè)量實(shí)驗(yàn)和觀(guān)測(cè)科學(xué)中的不確定性,這就是概率論的基礎(chǔ)。從一開(kāi)始,統(tǒng)計(jì)學(xué)提供的工具不僅是為了“描述”現(xiàn)象,更重要的是“解讀”現(xiàn)象。
有趣的是,啤酒對(duì)統(tǒng)計(jì)學(xué)的發(fā)展有深遠(yuǎn)的影響。這個(gè)領(lǐng)域中的一個(gè)基本概念:t統(tǒng)計(jì)量,就是由一個(gè)化驗(yàn)師提出的,他以此來(lái)解釋大批量的吉尼斯啤酒在都柏林、愛(ài)爾蘭兩地售賣(mài)量的差異。t統(tǒng)計(jì)量和其他概念一起促進(jìn)了結(jié)構(gòu)化數(shù)學(xué)理論的發(fā)展,以此給出了明確的定義和法則。統(tǒng)計(jì)學(xué)家們開(kāi)發(fā)出了大量的工具便于人們使用,提高了人們觀(guān)測(cè)、排列、預(yù)測(cè)和采樣的能力。
所不同的是文化
捕捉現(xiàn)實(shí)世界中的現(xiàn)象就是在處理不確定的事情。要做到這一點(diǎn),統(tǒng)計(jì)學(xué)家必須理解所研究數(shù)據(jù)的潛在分布,并找出參數(shù)來(lái)提供預(yù)測(cè)。統(tǒng)計(jì)學(xué)家的目標(biāo)就是預(yù)測(cè)有一定規(guī)律的一系列變量的相互作用(我們不可能100%確定任何事情)。在另一領(lǐng)域,機(jī)器學(xué)習(xí)專(zhuān)家則建立起一套算法,能準(zhǔn)確的預(yù)測(cè)、分類(lèi)和聚類(lèi)。他們不關(guān)注不確定性和假設(shè),而是通過(guò)持續(xù)學(xué)習(xí)的方式來(lái)提高結(jié)果的準(zhǔn)確度。
