那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析關于機器學習的八個核心

ml8z_IV_Technol ? 作者:工程師之余 ? 2018-10-21 09:12 ? 次閱讀

機器學習是大數據、人工智能的核心,是從事這個領域的必經之路。但是懂得算法還遠遠不能體現機器學習的價值所在。如果你是開發者,方便的機器學習,為你涉入該領域提供了便捷。不過,能夠確定一套高商業價值的模型,你需要很長的積淀??偨Y八個機器學習的核心能力以供把控方向。

1、問題模型化能力

機器學習的最終目的是實現某種問題的利益最大化,所有實際問題最終都會轉化為一個數據科學的優化問題,那么就需要你有較好的行業背景認識。盡管海量數據會大量縮小你對行業熟知知識的要求,但數據往往不全是海量的,且熟悉的行業背景知識可大大提高效率。

2、復雜數據結構化能力

喂入算法是數據是設計好的,結構化了的數據,但實際數據往往有各種來源,如圖像數據、文本數據、空間、事件序列。..故而合理的結構化數據的能力是很有必要的。

3、數據量、數據結構與數據合理預處理的能力

1)數據量VS異常值

所謂異常值,即不是缺失值,也不是錯誤值,同樣是真實情況的表現,之所以覺得一個數據異常,是因為我們能夠用到的數據量不夠大,無法準確地代表整個此類數據的分布。故當數據量足夠大時,異常值不再異常,且提升了數據的覆蓋面,如個性化推薦。

2)數據平衡VS采樣

如果數據分布均衡,應盡可能避免采樣;因為上下采樣都有其不利影響,上采樣不得當,使得數據中存在大量相同的數據,會導致模型過擬合;下采樣則必然減少數據信息量。

數據不平衡時,常見的處理方式有:

簡單粗暴地復制小樣本數量的樣本——容易過擬合;

調整權重——其效果基本近似于上一種;

隨機森林,使每棵樹訓練時的樣本均衡;

觀察導致樣本不均衡的因素,或可在該因素下先分類,再分別訓練模型。

4、理解特征、并可以有效轉換特征的能力

海量數據特征中,必然有很多特征存在相關性,常常通過降維有效合并相關數據,這樣,在防止了過擬合的同時,也緩解了計算機的負擔;

有時特征經過轉換后,預測效果更佳。如連續變量離散化、重新劃分離散區間。..。

也可對特征重要性排序,繪制特征數量增加與模型預測結果的關系曲線。

5、選擇適當算法的能力

1) 算法不是越復雜越好的,記?。和瑯拥臄祿?,當所有模型擬合效果相近時,復雜度越小的算法,帶來不必要的麻煩越小,可解釋性也相對更高。

2) 在相同算法下,訓練的效果會隨著數據的增加而增加,但超過一定程度后,訓練效果將趨于穩定,此時應該考慮更換復雜度較高的算法。

可以參考下圖為數據選擇合理的算法。

6、優化損失函數的能力

當數據分布不均、或需要為某個類別增加權重時,就需要調整損失函數的權值參數,或增加懲罰項。如通過在特定的錯誤類型上,增加更多的懲罰來解釋它們的權重

7、模型訓練與模型融合的能力

想要訓練出一個好的模型參數也不簡單,最好對算法參數有較深的理解??梢允褂脰鸥袼阉鳎℅ridSearchCV)輔助調參,但真正得到的好的參數,還需要與你長期的經驗相結合。

有時單一的模型不能很好的擬合數據,此時可以將多個模型融合做訓練,常見的模型融合有Boosting、Bagging兩種。典型的如Adaboost、隨機森林

8、區分經驗誤差與泛化誤差

訓練集上的效果不能代表實際效果,要得到好的實際預測效果,及減小泛化誤差。交叉驗證可以實現這一目的,不過最好還要準備一套測試數據來驗證。通俗理解:交叉驗證是高考前的各種模考,而最終測試數據的結果就是高考結果。

此外可以使用正則化來減小泛化誤差。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1796

    文章

    47666

    瀏覽量

    240286
  • 大數據
    +關注

    關注

    64

    文章

    8908

    瀏覽量

    137791

原文標題:機器學習的八個核心能力

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    PLC梯形圖編程八個必須步驟

    文章將向您簡單介紹PLC梯形圖編程八個必須步驟。
    發表于 03-24 10:23 ?8136次閱讀

    USB的八個問題和答案

    本帖最后由 eehome 于 2013-1-5 09:45 編輯 USB的八個問題和答案
    發表于 07-27 10:57

    labview八個項目

    下面的資料會絲毫不缺的給大家發到郵箱資料一:資料二:下面的八個項目都會給大家帶上的我們的工具包,全部支持我們的2012版軟件下面的例程都會給大家帶上的需要的話 qq:271604202
    發表于 03-17 14:48

    有關域名知識八個問題

    有關域名知識八個問題 什么是域名?    Internet域名是Internet網絡上的一服務器或一網絡系統的名字,在全世界,沒有重
    發表于 01-27 10:07 ?589次閱讀

    有關域名的不可不t知的八個問題

    有關域名的不可不t知的八個問題 了解域名的相關知識,下面有關域名的八個經典問題,將會有助于你了解域名相關問題。  
    發表于 02-23 13:50 ?777次閱讀

    輕松高效地設置PCB設計約束的八個步驟

    輕松高效地設置 PCB 設計約束的八個步驟
    發表于 01-06 14:49 ?0次下載

    確保PCB設計成功的八個步驟

    確?!狿CB的設計成功的必要的八個步驟
    發表于 01-06 14:46 ?0次下載

    確保 PCB 設計成功的八個步驟

    設計過程中,確保 PCB 設計成功的八個步驟
    發表于 05-24 17:12 ?0次下載

    輕松高效地設置PCB設計約束的八個步驟

    輕松高效地設置 PCB 設計約束的八個步驟
    發表于 05-11 16:44 ?0次下載

    PCB布線的八個經典問答

    PCB布線的八個經典問答,學習資料,感興趣的可以看看。
    發表于 10-26 15:28 ?0次下載

    可設置八個鬧時的智能時鐘

    可設置八個鬧時的智能時鐘
    發表于 01-08 14:14 ?5次下載

    機器學習研究者必知的八個神經網絡架構

    本文簡述了機器學習核心結構的歷史發展,并總結了研究者需要熟知的 8 神經網絡架構。
    發表于 02-26 18:40 ?1128次閱讀

    谷歌的AI鋼琴精靈:只需用八個按鈕,就可幫助人們即興創作

    機器學習在藝術和音樂方面實現了一些輝煌的成就。最新的例子來自谷歌的創意研究團隊Magenta的AI鋼琴精靈,只需用八個按鈕就可以讓你在鋼琴上流利地即興創作。
    發表于 10-18 08:56 ?1555次閱讀

    AMD銳龍4000有八個核心,性能提升56%

    AMD近日正式發布了銳龍4000U、銳龍4000H系列移動APU(代號Renoir),采用7nm工藝、Zen 2架構,最多八個CPU核心八個GPU計算單元(512SP),熱設計功耗15/45W。
    的頭像 發表于 01-15 09:08 ?4059次閱讀

    八個開關 輸入輸出只有Proteus圖

    Proteus八個開關輸入輸出
    發表于 12-30 16:50 ?0次下載
    百家乐官网园36bol在线| 金沙城百家乐大赛规则| bet365备用网址b365etbyty| 百家乐最大的赌局| 百家乐官网娱乐网会员注册 | 百家乐官网游戏奥秘| 百家乐gamble| 怎么玩百家乐官网的玩法技巧和规则 | 百家乐一代龙虎机| 百家乐官网必胜赌| 百家乐官网真人荷官| 大连棋牌网| 百家乐开闲几率| 至尊百家乐官网于波| 真人888| 大发888娱乐城官网下载真钱| 百家乐赌场讨论群| 必博国际| 自贡百家乐娱乐场开户注册| 百家乐官网百家乐官网技巧| 百家乐官网庄闲赢负表| 打百家乐官网的介绍| 鑫鼎娱乐| 澳门赌场招聘网| 请问下百家乐官网去哪个娱乐城玩最好呢 | 百家乐真钱斗地主| 缅甸百家乐龙虎斗| 嬴澳门百家乐的公式| 澳门百家乐大揭密| 新思维百家乐投注法| 百家乐最佳投注办法| 机械手百家乐官网的玩法技巧和规则| 百家乐官网连长| 财经| 大发888娱乐备用网址| 大发888娱乐城怎么玩| 大发888备用地址| tt娱乐城网站| 桑日县| 博之道百家乐官网技巧| 乐中百家乐官网的玩法技巧和规则|