德州扑克保险ev,博狗娱乐场体育lm0,特温特足球俱乐部(中国)·官方网站

本文作者：格創(chuàng)東智OT團(tuán)隊(duì) （轉(zhuǎn)載請(qǐng)注明來(lái)源及作者）

在之前格物匯的文章中，我們介紹了特征構(gòu)建的幾種常用方法。特征構(gòu)建是一種升維操作，針對(duì)特征解釋能力不足，可以通過(guò)特征構(gòu)建的方法來(lái)增加特征解釋力，從而提升模型效果。隨著近幾年大數(shù)據(jù)技術(shù)的普及，我們可以獲取海量數(shù)據(jù)，但是這些海量數(shù)據(jù)帶給我們更多信息的同時(shí)，也帶來(lái)了更多的噪音和異常數(shù)據(jù)。如何降維去噪成為很多企業(yè)關(guān)注的焦點(diǎn)，今天我們將介紹特征工程中的一種降維方法——特征選擇。

什么是特征選擇

特征選擇( Feature Selection )也稱特征子集選擇( FeatureSubset Selection , FSS )，或屬性選擇( Attribute Selection )。是指從已有的N個(gè)特征(Feature)中選擇M個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化。

圖1.jpg

特征選擇主要有兩個(gè)功能

減少特征數(shù)量、降維，使模型泛化能力更強(qiáng)，減少過(guò)擬合
增強(qiáng)對(duì)特征和特征值之間的理解

特征選擇的流程

特征選擇的目標(biāo)是尋找一個(gè)能夠有效識(shí)別目標(biāo)的最小特征子集。尋找的一般流程可用下圖表示：

一般來(lái)說(shuō)，通過(guò)枚舉來(lái)對(duì)特征子集進(jìn)行選擇是一個(gè)比較費(fèi)時(shí)的步驟,所以應(yīng)使用一些策略來(lái)進(jìn)行特征選擇，通常來(lái)說(shuō)，我們會(huì)從兩個(gè)方面考慮來(lái)選擇特征：

>>>>

特征是否發(fā)散

如果一個(gè)特征不發(fā)散，例如方差接近于0，也就是說(shuō)樣本在這個(gè)特征上基本上沒(méi)有差異，這個(gè)特征對(duì)于樣本的區(qū)分并沒(méi)有什么用。

>>>>

特征與目標(biāo)的相關(guān)性

這點(diǎn)比較顯見(jiàn)，與目標(biāo)相關(guān)性高的特征，應(yīng)當(dāng)優(yōu)選選擇。除方差法外，本文介紹的其他方法均從相關(guān)性考慮。

根據(jù)特征選擇的形式又可以將特征選擇方法分為3種：

Filter
Wrapper
Embedded

特征選擇的方法

Filter

過(guò)濾法，按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分，設(shè)定閾值或者待選擇閾值的個(gè)數(shù)，選擇特征。

評(píng)分指標(biāo)有：

方差：評(píng)價(jià)指標(biāo)的離散程度，越離散說(shuō)明包含的信息越多。
相關(guān)性：衡量特征對(duì)目標(biāo)的解釋能力，相關(guān)系數(shù)越大說(shuō)明解釋能力越強(qiáng)。
卡方檢驗(yàn)：檢驗(yàn)定性自變量對(duì)定性因變量的相關(guān)性。

圖3.jpg

互信息：也是評(píng)價(jià)定性自變量對(duì)定性因變量的相關(guān)性的。

圖4.jpg

Wrapper

包裝法，根據(jù)目標(biāo)函數(shù)（通常是預(yù)測(cè)效果）評(píng)分，每次選擇若干特征，或者排除若干特征，主要的方法是遞歸特征消除法。遞歸消除特征法使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練，每輪訓(xùn)練后，減少若干特征，或者新增若干特征，進(jìn)行評(píng)估看新增的特征是否需要保留，剔除的特征是否需要還原。最后再基于新的特征集進(jìn)行下一輪訓(xùn)練。

Embedded

嵌入法，先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練，得到各個(gè)特征的權(quán)值系數(shù)，根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法，但是是通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。

一般分為如下兩大類：

>>>>

基于懲罰項(xiàng)的特征選擇法

這個(gè)方法可以用線性回歸模型來(lái)舉例說(shuō)明，我們?cè)诰€性模型的目標(biāo)函數(shù)中增加L1正則項(xiàng)（實(shí)際上這就是lasso模型）。由于該正則項(xiàng)的存在，某些與目標(biāo)y不太相關(guān)的特征的系數(shù)將縮減至0，而保留的特征系數(shù)將相應(yīng)調(diào)整，從而達(dá)到了對(duì)特征進(jìn)行篩選的效果，L1正則項(xiàng)系數(shù)越大，篩選的力度也就越大。

>>>>

基于樹(shù)模型的特征選擇法

在我們之前的文章中介紹過(guò)隨機(jī)森林，GDBT等等基于樹(shù)的模型，他們均有一個(gè)特點(diǎn)就是模型可以計(jì)算出特征的重要性。決策樹(shù)會(huì)優(yōu)先將對(duì)預(yù)測(cè)目標(biāo)y幫助最大的特征放在模型的頂端，因此根據(jù)這個(gè)效果我們計(jì)算得到特征的重要性，進(jìn)而我們可以根據(jù)特征重要性對(duì)特征進(jìn)行選擇。

今天我們大致了解了如何給工業(yè)大數(shù)據(jù)降維去噪，進(jìn)行特征選擇，在后續(xù)文章中，我們將繼續(xù)帶大家了解特征工程的另一個(gè)內(nèi)容——特征抽取，敬請(qǐng)期待。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

特征選擇

特征選擇

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
7196
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8908

瀏覽量
137797
智能制造

智能制造

+關(guān)注

關(guān)注
48

文章
5612

瀏覽量
76565
工業(yè)互聯(lián)網(wǎng)

工業(yè)互聯(lián)網(wǎng)

+關(guān)注

關(guān)注
28

文章
4330

瀏覽量
94269
工業(yè)大數(shù)據(jù)

工業(yè)大數(shù)據(jù)

+關(guān)注

關(guān)注
0

文章
72

瀏覽量
7880