那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何給工業(yè)大數(shù)據(jù)降維去噪,你可以試試特征選擇

格創(chuàng)東智 ? 2018-12-18 14:09 ? 次閱讀

本文作者:格創(chuàng)東智OT團(tuán)隊(duì) (轉(zhuǎn)載請(qǐng)注明來(lái)源及作者)


在之前格物匯的文章中,我們介紹了特征構(gòu)建的幾種常用方法。特征構(gòu)建是一種升維操作,針對(duì)特征解釋能力不足,可以通過(guò)特征構(gòu)建的方法來(lái)增加特征解釋力,從而提升模型效果。隨著近幾年大數(shù)據(jù)技術(shù)的普及,我們可以獲取海量數(shù)據(jù),但是這些海量數(shù)據(jù)帶給我們更多信息的同時(shí),也帶來(lái)了更多的噪音和異常數(shù)據(jù)。如何降維去噪成為很多企業(yè)關(guān)注的焦點(diǎn),今天我們將介紹特征工程中的一種降維方法——特征選擇


什么是特征選擇

特征選擇( Feature Selection )也稱特征子集選擇( FeatureSubset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的N個(gè)特征(Feature)中選擇M個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化。

圖1.jpg



特征選擇主要有兩個(gè)功能

  • 減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過(guò)擬合

  • 增強(qiáng)對(duì)特征和特征值之間的理解


特征選擇的流程


特征選擇的目標(biāo)是尋找一個(gè)能夠有效識(shí)別目標(biāo)的最小特征子集。尋找的一般流程可用下圖表示:


一般來(lái)說(shuō),通過(guò)枚舉來(lái)對(duì)特征子集進(jìn)行選擇是一個(gè)比較費(fèi)時(shí)的步驟,所以應(yīng)使用一些策略來(lái)進(jìn)行特征選擇,通常來(lái)說(shuō),我們會(huì)從兩個(gè)方面考慮來(lái)選擇特征:

>>>>

特征是否發(fā)散

如果一個(gè)特征不發(fā)散,例如方差接近于0,也就是說(shuō)樣本在這個(gè)特征上基本上沒(méi)有差異,這個(gè)特征對(duì)于樣本的區(qū)分并沒(méi)有什么用。

>>>>

特征與目標(biāo)的相關(guān)性

這點(diǎn)比較顯見(jiàn),與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)選選擇。除方差法外,本文介紹的其他方法均從相關(guān)性考慮。

根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:

  • Filter

  • Wrapper

  • Embedded

特征選擇的方法


01

Filter


過(guò)濾法,按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,設(shè)定閾值或者待選擇閾值的個(gè)數(shù),選擇特征。

評(píng)分指標(biāo)有:

  • 方差:評(píng)價(jià)指標(biāo)的離散程度,越離散說(shuō)明包含的信息越多。

  • 相關(guān)性:衡量特征對(duì)目標(biāo)的解釋能力,相關(guān)系數(shù)越大說(shuō)明解釋能力越強(qiáng)。

  • 卡方檢驗(yàn):檢驗(yàn)定性自變量對(duì)定性因變量的相關(guān)性。

圖3.jpg

  • 互信息:也是評(píng)價(jià)定性自變量對(duì)定性因變量的相關(guān)性的。

圖4.jpg


02

Wrapper

包裝法,根據(jù)目標(biāo)函數(shù)(通常是預(yù)測(cè)效果)評(píng)分,每次選擇若干特征,或者排除若干特征,主要的方法是遞歸特征消除法。遞歸消除特征法使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,減少若干特征,或者新增若干特征,進(jìn)行評(píng)估看新增的特征是否需要保留,剔除的特征是否需要還原。最后再基于新的特征集進(jìn)行下一輪訓(xùn)練。

03

Embedded


嵌入法,先使用某些機(jī)器學(xué)習(xí)算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法,但是是通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。

一般分為如下兩大類:

>>>>

基于懲罰項(xiàng)的特征選擇法

這個(gè)方法可以用線性回歸模型來(lái)舉例說(shuō)明,我們?cè)诰€性模型的目標(biāo)函數(shù)中增加L1正則項(xiàng)(實(shí)際上這就是lasso模型)。由于該正則項(xiàng)的存在,某些與目標(biāo)y不太相關(guān)的特征的系數(shù)將縮減至0,而保留的特征系數(shù)將相應(yīng)調(diào)整,從而達(dá)到了對(duì)特征進(jìn)行篩選的效果,L1正則項(xiàng)系數(shù)越大,篩選的力度也就越大。

>>>>

基于樹(shù)模型的特征選擇法

在我們之前的文章中介紹過(guò)隨機(jī)森林,GDBT等等基于樹(shù)的模型,他們均有一個(gè)特點(diǎn)就是模型可以計(jì)算出特征的重要性。決策樹(shù)會(huì)優(yōu)先將對(duì)預(yù)測(cè)目標(biāo)y幫助最大的特征放在模型的頂端,因此根據(jù)這個(gè)效果我們計(jì)算得到特征的重要性,進(jìn)而我們可以根據(jù)特征重要性對(duì)特征進(jìn)行選擇。


今天我們大致了解了如何給工業(yè)大數(shù)據(jù)降維去噪,進(jìn)行特征選擇,在后續(xù)文章中,我們將繼續(xù)帶大家了解特征工程的另一個(gè)內(nèi)容——特征抽取,敬請(qǐng)期待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下簡(jiǎn)稱“OpenHarmony”)項(xiàng)目群技術(shù)指導(dǎo)委員會(huì)與西北工業(yè)大學(xué)共同舉辦的“西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂(lè)部成立大會(huì)”在
    的頭像 發(fā)表于 11-19 18:04 ?397次閱讀
    西北<b class='flag-5'>工業(yè)大</b>學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

    CASAIM與北京工業(yè)大學(xué)合作開(kāi)展鋼桁梁鋼材三掃描試驗(yàn),研究高服役期鋼材銹蝕特征及力學(xué)性能退化規(guī)律

    近期,CASAIM與北京工業(yè)大學(xué)攜手,開(kāi)展鋼桁梁鋼材三掃描試驗(yàn),此次研究結(jié)合了北京工業(yè)大學(xué)在材料科學(xué)方面的深厚積累,以及CASAIM在實(shí)際工程應(yīng)用上的豐富經(jīng)驗(yàn),共同推進(jìn)鋼桁梁鋼材銹蝕機(jī)理的深入研究和力學(xué)性能退化規(guī)律的探索。
    的頭像 發(fā)表于 11-12 15:01 ?164次閱讀

    工業(yè)智能網(wǎng)關(guān)在設(shè)備遠(yuǎn)程運(yùn)中的作用

    地實(shí)現(xiàn)不同工業(yè)設(shè)備(如PLC、儀器儀表、CNC機(jī)床、傳感器等)與云平臺(tái)之間的通信,為設(shè)備遠(yuǎn)程運(yùn)提供了堅(jiān)實(shí)的基礎(chǔ)。隨著物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)的飛速發(fā)展,工業(yè)智能網(wǎng)關(guān)作為連接
    的頭像 發(fā)表于 10-14 11:40 ?294次閱讀

    PCM1808模擬輸入短接到GND,I2S端底數(shù)據(jù)過(guò)大怎么解決?

    之前自己做的板子也有底問(wèn)題,后面逛了論壇給出的答案也是說(shuō)按照DEMO板,后面按照官方的gerber文件,自行打了DEMO板樣板。然后BOM方面也是按照官方的。測(cè)試發(fā)現(xiàn)當(dāng)模擬輸入的左右聲道通過(guò)
    發(fā)表于 09-29 07:44

    工業(yè)裝備智能保平臺(tái)是什么

    應(yīng)運(yùn)而生,成為保障生產(chǎn)連續(xù)性和設(shè)備高效運(yùn)行的重要工具。 什么是工業(yè)裝備智能保平臺(tái)? 工業(yè)裝備智能保平臺(tái)是一種集成了大數(shù)據(jù)、云計(jì)算、人工智
    的頭像 發(fā)表于 08-21 14:19 ?275次閱讀

    圖像識(shí)別技術(shù)的原理是什么

    值化、濾波、邊緣檢測(cè)等操作。這些操作可以提高圖像的質(zhì)量,減少噪聲,突出圖像的特征,為后續(xù)的特征提取和分類器設(shè)計(jì)提供基礎(chǔ)。 1.1
    的頭像 發(fā)表于 07-16 10:46 ?1413次閱讀

    工業(yè)大數(shù)據(jù)云平臺(tái)在設(shè)備預(yù)測(cè)性維護(hù)中的作用

    ,只有保證設(shè)備的安全穩(wěn)定運(yùn)行才能保障生產(chǎn)的持續(xù),質(zhì)量的可靠,提升企業(yè)產(chǎn)品競(jìng)爭(zhēng)力。 因此,企業(yè)就需要加強(qiáng)對(duì)設(shè)備狀況的及時(shí)把握,并一定程度上實(shí)現(xiàn)工業(yè)設(shè)備預(yù)測(cè)性維護(hù)。為此,數(shù)之能提供的工業(yè)大數(shù)據(jù)云平臺(tái)可以全面接入
    的頭像 發(fā)表于 06-28 15:31 ?286次閱讀

    通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    來(lái)源:DeepHubIMBA特征選擇是構(gòu)建機(jī)器學(xué)習(xí)模型過(guò)程中的決定性步驟。為模型和我們想要完成的任務(wù)選擇好的特征,可以提高性能。如果我們處理
    的頭像 發(fā)表于 06-05 08:27 ?414次閱讀
    通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行<b class='flag-5'>特征</b><b class='flag-5'>選擇</b>

    工業(yè)大模型的五個(gè)基本問(wèn)題

    工業(yè)業(yè)大模型是大模型為賦能工業(yè)應(yīng)用所產(chǎn)生的產(chǎn)業(yè)新形態(tài),是制造業(yè)數(shù)字化轉(zhuǎn)型3.0的重要載體,是一個(gè)新質(zhì)體。
    發(fā)表于 04-23 16:04 ?785次閱讀
    <b class='flag-5'>工業(yè)大</b>模型的五個(gè)基本問(wèn)題

    工業(yè)大數(shù)據(jù)發(fā)展面臨的問(wèn)題

    工業(yè)大數(shù)據(jù)作為工業(yè)與數(shù)字經(jīng)濟(jì)之間的橋梁紐帶,對(duì)加快工業(yè)數(shù)字化轉(zhuǎn)型、推進(jìn)數(shù)實(shí)融合,支撐新型工業(yè)化建設(shè)意義重大。
    的頭像 發(fā)表于 04-16 11:52 ?604次閱讀

    工業(yè)物聯(lián)網(wǎng)如何選擇數(shù)據(jù)采集網(wǎng)關(guān)

    ,如何選擇一款適合自身需求的數(shù)據(jù)采集網(wǎng)關(guān),卻是一個(gè)值得深思的問(wèn)題。本文將圍繞工業(yè)物聯(lián)網(wǎng)中數(shù)據(jù)采集網(wǎng)關(guān)的選擇進(jìn)行探討。1、明確設(shè)備和控制器的型
    的頭像 發(fā)表于 04-03 14:21 ?544次閱讀
    <b class='flag-5'>工業(yè)</b>物聯(lián)網(wǎng)如何<b class='flag-5'>選擇</b><b class='flag-5'>數(shù)據(jù)</b>采集網(wǎng)關(guān)

    工業(yè)物聯(lián)網(wǎng)設(shè)備運(yùn)數(shù)據(jù)大屏有什么功能?

    ,并優(yōu)化設(shè)備的運(yùn)行效率和可靠性。對(duì)此,數(shù)之能提供具備廣泛接入性、高并發(fā)性、安全防護(hù)性的設(shè)備運(yùn)數(shù)據(jù)大屏。 通過(guò)對(duì)接PLC、儀器儀表、工業(yè)機(jī)器人、數(shù)控機(jī)床、傳感器等設(shè)備數(shù)據(jù),設(shè)備運(yùn)
    的頭像 發(fā)表于 03-18 11:01 ?620次閱讀

    通過(guò)工業(yè)智能網(wǎng)關(guān)實(shí)現(xiàn)設(shè)備智能運(yùn)管理

    需要人工現(xiàn)場(chǎng)排查和處理,不僅效率低下,而且成本較高。這是受限于設(shè)備單機(jī)運(yùn)行、缺少聯(lián)網(wǎng)的限制,因此需要數(shù)據(jù)采集設(shè)備的加持。物通博聯(lián)推出的工業(yè)智能網(wǎng)關(guān)可以實(shí)現(xiàn)PLC、儀器儀表、工業(yè)機(jī)器人、
    的頭像 發(fā)表于 03-15 13:44 ?387次閱讀
    通過(guò)<b class='flag-5'>工業(yè)</b>智能網(wǎng)關(guān)實(shí)現(xiàn)設(shè)備智能運(yùn)<b class='flag-5'>維</b>管理

    CYBT-343026傳輸大數(shù)據(jù)時(shí)會(huì)丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個(gè)操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時(shí)有時(shí)會(huì)丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    淺析大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)管理

    淺析大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)管理 張穎姣 安科瑞電氣股份有限公司?上海嘉定201801 摘要:本文將從數(shù)據(jù)中心運(yùn)管理的角度,聯(lián)系現(xiàn)實(shí)情況
    的頭像 發(fā)表于 02-22 14:40 ?450次閱讀
    淺析<b class='flag-5'>大數(shù)據(jù)</b>時(shí)代下的<b class='flag-5'>數(shù)據(jù)</b>中心運(yùn)<b class='flag-5'>維</b>管理
    澳门百家乐注册| 大发888游戏平台 46| 24山风水发几房| 哪个百家乐官网投注比较好| 皇冠投注平台| 大丰收娱乐城官网| 大发888的比赛怎么报名| 百博百家乐的玩法技巧和规则| 缅甸百家乐赌博有假吗| 网上百家乐真实吗| 百家乐网站哪个好| 百家乐四式正反路| 做生意办公桌摆放风水| 百家乐官网发牌| 阳宅24方位座向| 赌博百家乐官网的乐趣| 山丹县| 24山亥山巳向造葬日课| 金满堂百家乐官网的玩法技巧和规则 | 网上百家乐官网分析软件| 百家乐官网赢赌场百家乐官网| 皇城娱乐| 无锡市| 现场百家乐官网百家乐官网| 百家乐官网经验在哪找| 游戏房百家乐官网赌博图片| 怎么玩百家乐官网网上赌博| 百家乐官网强对弱的对打法| 百家乐官网平注法到65688| 真人百家乐官网的玩法技巧和规则 | 百家乐庄闲最佳打法| 百家乐翻天qvod| 百家乐乐翻天| 大发888娱乐城下载lm0| 棋牌室转让| 百家乐官网游戏分析| 678百家乐官网博彩娱乐平台| 游戏百家乐官网押金| 博久百家乐论坛| 玩百家乐游戏的最高技巧| 大发888手机版下载安|