數(shù)據(jù)挖掘常用算法
1、樸素貝葉斯
樸素貝葉斯(NB)屬于生成式模型(即需要計算特征與類的聯(lián)合概率分布),計算過程非常簡單,只是做了一堆計數(shù)。NB有一個條件獨立性假設,即在類已知的條件下,各個特征之間的分布是獨立的。這樣樸素貝葉斯分類器的收斂速度將快于判別模型,如邏輯回歸,所以只需要較少的訓練數(shù)據(jù)即可。即使NB條件獨立假設不成立,NB分類器在實踐中仍然表現(xiàn)的很出色。它的主要缺點是它不能學習特征間的相互作用,用mRMR中的R來講,就是特征冗余。
2、邏輯回歸(logisticregression)
邏輯回歸是一個分類方法,屬于判別式模型,有很多正則化模型的方法(L0,L1,L2),而且不必像在用樸素貝葉斯那樣擔心特征是否相關。與決策樹與SVM相比,還會得到一個不錯的概率解釋,甚至可以輕松地利用新數(shù)據(jù)來更新模型(使用在線梯度下降算法onlinegradientdescent)。如果需要一個概率架構(比如,簡單地調(diào)節(jié)分類閾值,指明不確定性,或者是要獲得置信區(qū)間),或者希望以后將更多的訓練數(shù)據(jù)快速整合到模型中去,那么可以使用它。
3、最近鄰算法——KNN
KNN即最近鄰算法,其主要過程為:計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);對上面所有的距離值進行排序;選前k個最小距離的樣本;根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別;
如何選擇一個最佳的K值,這取決于數(shù)據(jù)。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發(fā)式技術來獲取,比如,交叉驗證。另外噪聲和非相關性特征向量的存在會使K近鄰算法的準確性減小。
近鄰算法具有較強的一致性結果。隨著數(shù)據(jù)趨于無限,算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值,K近鄰保證錯誤率不會超過貝葉斯理論誤差率。
4、決策樹
可以處理特征間的交互關系并且是非參數(shù)化的,因此不必擔心異常值或者數(shù)據(jù)是否線性可分(舉個例子,決策樹能輕松處理好類別A在某個特征維度x的末端,類別B在中間,然后類別A又出現(xiàn)在特征維度x前端的情況)。它的缺點之一就是不支持在線學習,于是在新樣本到來后,決策樹需要全部重建。另一個缺點就是容易出現(xiàn)過擬合,但這也就是諸如隨機森林RF(或提升樹boostedtree)之類的集成方法的切入點。另外,隨機森林經(jīng)常在很多分類問題上表現(xiàn)很好(通常比支持向量機好一些),它訓練快速并且可調(diào),同時無須擔心要像支持向量機那樣調(diào)一大堆參數(shù),所以在以前一直很受歡迎。
5、Adaboosting
Adaboost是一種加和模型,每個模型都是基于上一次模型的錯誤率來建立的,過分關注分錯的樣本,而對正確分類的樣本減少關注度,逐次迭代之后,可以得到一個相對較好的模型。Adaboost是一種典型的boosting算法。
6、SVM支持向量機
高準確率,為避免過擬合提供了很好的理論保證,而且就算數(shù)據(jù)在原特征空間線性不可分,只要給個合適的核函數(shù),它就能運行得很好。在動輒超高維的文本分類問題中特別受歡迎。可惜內(nèi)存消耗大,難以解釋,運行和調(diào)參也有些煩人,而隨機森林卻剛好避開了這些缺點,比較實用。
-
數(shù)據(jù)挖掘
+關注
關注
1文章
406瀏覽量
24322
發(fā)布評論請先 登錄
相關推薦
【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+內(nèi)容簡介
【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+介紹基礎硬件算法模塊
【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+一本介紹基礎硬件算法模塊實現(xiàn)的好書
aes算法在數(shù)據(jù)傳輸中的應用
魯棒性算法在數(shù)據(jù)處理中的應用
名單公布!【書籍評測活動NO.46】從算法到電路 | 數(shù)字芯片算法的電路實現(xiàn)
常用的ADC濾波算法有哪些
人員軌跡分析算法有哪些?
中科曙光受邀參加第十屆中國數(shù)據(jù)挖掘會議
Python建模算法與應用
bp神經(jīng)網(wǎng)絡算法的基本流程包括哪些
常用的電機控制算法有哪些
STM32的ADC項目應用,用什么算法濾波和穩(wěn)定數(shù)據(jù)抖動?
挖掘機生產(chǎn)裝配線無線通訊應用
![<b class='flag-5'>挖掘</b>機生產(chǎn)裝配線無線通訊應用](https://file1.elecfans.com//web2/M00/C0/87/wKgZomXWpu2AVtbjAAOWT5Cc7_k518.png)
評論