在學(xué)習(xí)過程中,機(jī)器學(xué)習(xí)會(huì)出錯(cuò)。運(yùn)用機(jī)器學(xué)習(xí)的人需要預(yù)見到這一點(diǎn)——并且要注意不要因IT和業(yè)務(wù)的人為錯(cuò)誤而使事情變得更糟。
一般來(lái)說(shuō),學(xué)習(xí)的過程通常意味著先犯錯(cuò)誤以及選擇錯(cuò)誤的道路,然后再想明白如何在將來(lái)避免這些陷阱。機(jī)器學(xué)習(xí)也不例外。
當(dāng)你在你的企業(yè)中運(yùn)用機(jī)器學(xué)習(xí)時(shí),要小心:一些技術(shù)營(yíng)銷可能會(huì)告訴你機(jī)器學(xué)習(xí)的過程是又快又好的,但這是一種對(duì)技術(shù)的不切實(shí)際的期望。事實(shí)是,機(jī)器學(xué)習(xí)過程中必定會(huì)出現(xiàn)錯(cuò)誤。而且至少在相當(dāng)一段時(shí)間內(nèi),這些錯(cuò)誤會(huì)被編碼到業(yè)務(wù)流程中。結(jié)果就是,這些錯(cuò)誤現(xiàn)在大規(guī)模地發(fā)生,并且通常不受人的直接控制。
SPR咨詢公司的首席數(shù)據(jù)科學(xué)家雷·約翰遜說(shuō):“只有盲目冒進(jìn)的渴望而缺乏應(yīng)有的務(wù)實(shí)和勤奮會(huì)導(dǎo)致機(jī)器學(xué)習(xí)帶來(lái)的好處幾乎淪為無(wú)用?!?/p>
檢測(cè)機(jī)器學(xué)習(xí)過程中的錯(cuò)誤并處理它們將有助于你在技術(shù)方面取得更大成功,以及滿足你對(duì)機(jī)器學(xué)習(xí)的期望。
以下是一些關(guān)于機(jī)器學(xué)習(xí)工具在學(xué)習(xí)過程中所犯錯(cuò)誤的問題,這些問題可能會(huì)使錯(cuò)誤數(shù)量增加并延長(zhǎng)犯錯(cuò)的時(shí)間——機(jī)器學(xué)習(xí)工具自身可能永遠(yuǎn)無(wú)法識(shí)別并糾正這些錯(cuò)誤教訓(xùn)。
缺乏對(duì)問題的業(yè)務(wù)理解而使機(jī)器學(xué)習(xí)失敗
一些使用機(jī)器學(xué)習(xí)模型的數(shù)據(jù)工作者并不真正理解機(jī)器學(xué)習(xí)正在試圖解決的業(yè)務(wù)問題,而這可能會(huì)給流程引入錯(cuò)誤。
金融服務(wù)網(wǎng)站LendingTree的副總裁兼戰(zhàn)略分析主管Akshay Tandon表示,當(dāng)他的團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)工具時(shí),他鼓勵(lì)它從假設(shè)聲明開始。該聲明應(yīng)該詢問你要解決的問題是什么,以及你要構(gòu)建哪些模型來(lái)解決該問題。
Tandon說(shuō),從統(tǒng)計(jì)學(xué)方面來(lái)看,今天可用的機(jī)器學(xué)習(xí)工具都非常強(qiáng)大。這樣一來(lái)正確地使用它就成為更重大的責(zé)任,因?yàn)檫@些強(qiáng)大的工具,如果不仔細(xì)使用,可能導(dǎo)致錯(cuò)誤決定而影響深遠(yuǎn)。如果數(shù)據(jù)分析團(tuán)隊(duì)不小心,他們最終得到的模型可能會(huì)不符合團(tuán)隊(duì)正在嘗試學(xué)習(xí)的特定數(shù)據(jù)??焖賽夯慕Y(jié)果,他說(shuō),就是事情可能很快就會(huì)出現(xiàn)重大事故。
此外,許多商業(yè)用戶都不明白,從投入生產(chǎn)的那一刻起,模型的質(zhì)量就會(huì)有一定程度的下降,Tandon說(shuō)。認(rèn)識(shí)到這一點(diǎn)后,就像汽車或任何其他機(jī)器一樣,用戶需要持續(xù)不斷地監(jiān)控它并注意它如何對(duì)決策產(chǎn)生影響。
數(shù)據(jù)質(zhì)量差可能導(dǎo)致機(jī)器學(xué)習(xí)錯(cuò)誤
垃圾進(jìn),垃圾出。如果數(shù)據(jù)質(zhì)量不達(dá)標(biāo),機(jī)器學(xué)習(xí)將受到消極影響。數(shù)據(jù)質(zhì)量差是數(shù)據(jù)管理員最憂心的問題之一。不管數(shù)據(jù)科學(xué)家和其他從事信息工作的專業(yè)人員原本的意圖有多好,數(shù)據(jù)質(zhì)量差都可能危及大數(shù)據(jù)分析工作并使他們的努力毀于一旦。它完全可以使機(jī)器學(xué)習(xí)模式一片混亂。
各界組織機(jī)構(gòu)經(jīng)常高估機(jī)器學(xué)習(xí)算法的韌性,卻低估不良數(shù)據(jù)的影響。約翰遜說(shuō),糟糕的數(shù)據(jù)質(zhì)量會(huì)導(dǎo)致糟糕的數(shù)據(jù)結(jié)果,進(jìn)而導(dǎo)致組織做出不明智的商業(yè)決策。這些決策的結(jié)果將損害業(yè)務(wù)績(jī)效,并使未來(lái)的計(jì)劃難以獲得支持。
根據(jù)過去和現(xiàn)在的經(jīng)驗(yàn),你可以從機(jī)器學(xué)習(xí)得出的結(jié)果中發(fā)現(xiàn)低質(zhì)量數(shù)據(jù)的存在,因?yàn)檫@些數(shù)據(jù)結(jié)果看起來(lái)就是講不通。
約翰遜說(shuō),探索性數(shù)據(jù)分析(EDA)是一個(gè)解決這一問題的主動(dòng)方法。EDA可以識(shí)別基本數(shù)據(jù)質(zhì)量問題,例如野值,空缺值和不一致的域值。您還可以使用統(tǒng)計(jì)抽樣等技術(shù)來(lái)確定是否有足夠的數(shù)據(jù)點(diǎn)實(shí)例來(lái)充分反映總體分布,并定義有關(guān)數(shù)據(jù)質(zhì)量補(bǔ)救的規(guī)則和策略。
對(duì)機(jī)器學(xué)習(xí)的不正確使用
咨詢公司Cambridge Consultants的專家級(jí)機(jī)器學(xué)習(xí)工程師Sally Epstein說(shuō):“我們?nèi)匀粡墓究吹降淖畛R姷膯栴}是,公司渴望運(yùn)用機(jī)器學(xué)習(xí)沒有其他原因,僅僅因?yàn)闀r(shí)髦而已。” 但她說(shuō),必須正確地使用該工具才能取得成功。而傳統(tǒng)的工程方法可能更快地提供解決方案并且成本低很多。
約翰遜說(shuō),當(dāng)機(jī)器學(xué)習(xí)可能不是解決問題的最佳選擇而且用例并沒有被完全理解時(shí),可能會(huì)導(dǎo)致解決錯(cuò)誤的問題。
此外,解決錯(cuò)誤的問題將導(dǎo)致失去機(jī)會(huì),因?yàn)榻M織正在努力將其用例定制為特定的,不合適的模型。這包括為了獲得成果而在人員和基礎(chǔ)設(shè)施方面部署的資源浪費(fèi),但這個(gè)成果本可以用更簡(jiǎn)單的替代方法來(lái)得到。
為避免對(duì)機(jī)器學(xué)習(xí)的錯(cuò)誤使用,請(qǐng)考慮所需的業(yè)務(wù)成果,問題的復(fù)雜性,數(shù)據(jù)量和屬性數(shù)量。約翰遜說(shuō),相對(duì)簡(jiǎn)單的問題,如分類,聚類和使用少量屬性的少量數(shù)據(jù)的關(guān)聯(lián)規(guī)則,可以通過視覺化或統(tǒng)計(jì)分析來(lái)處理。在這些情況下,采用機(jī)器學(xué)習(xí)可能需要更多的時(shí)間和資源。
當(dāng)數(shù)據(jù)量變得龐大時(shí),機(jī)器學(xué)習(xí)可能更合適。但是,先通過了一個(gè)機(jī)器學(xué)習(xí)練習(xí),然后才發(fā)現(xiàn)業(yè)務(wù)結(jié)果尚未明確定義并導(dǎo)致解決了錯(cuò)的問題的情況并不罕見。
機(jī)器學(xué)習(xí)模型可能存在偏差
使用質(zhì)量差的數(shù)據(jù)集可能會(huì)導(dǎo)致誤導(dǎo)性的結(jié)論。它不僅會(huì)引入不準(zhǔn)確性和缺失數(shù)據(jù),還會(huì)引入偏差。人類肯定是可能會(huì)有偏見的,所以由人們創(chuàng)造或啟發(fā)得出的模型也可能包含偏見。
Epstein說(shuō),每種機(jī)器學(xué)習(xí)算法對(duì)不平衡的類或分布都有不同的敏感性。如果沒有解決這些問題,你最終可能會(huì)得到的結(jié)果會(huì)是,比如說(shuō),對(duì)膚色有依賴性的面部識(shí)別工具,或具有性別偏見的模型。事實(shí)上,這種情況已經(jīng)多次在商業(yè)服務(wù)中發(fā)生過了。
結(jié)論的準(zhǔn)確性——無(wú)論是經(jīng)由算法還是人類得出的——都取決于被處理信息的廣度和質(zhì)量。咨詢公司Deloitte咨詢分析服務(wù)領(lǐng)域的負(fù)責(zé)人Vic Katyal表示,組織和個(gè)人面臨的算法偏見帶來(lái)的的財(cái)務(wù),法律和聲譽(yù)風(fēng)險(xiǎn)就是為什么任何使用機(jī)器學(xué)習(xí)的公司應(yīng)該將道德規(guī)范作為組織要求的一個(gè)例子。
Katyal說(shuō),算法偏差的跡象已經(jīng)被充分記錄在了信用評(píng)分,教育課程,招聘和刑事司法判決等公共領(lǐng)域。收集,策劃或應(yīng)用不當(dāng)?shù)臄?shù)據(jù)甚至可能在最精心設(shè)計(jì)和周密計(jì)劃的機(jī)器學(xué)習(xí)應(yīng)用程序中引入偏差。
他說(shuō),固有偏見的機(jī)器學(xué)習(xí)系統(tǒng)可能會(huì)使部分客戶群體或社會(huì)利益相關(guān)者處于劣勢(shì),并可能造成或延續(xù)不公平的結(jié)果。
咨詢公司麥肯錫在2017年的一份報(bào)告中指出,算法偏差是機(jī)器學(xué)習(xí)的最大風(fēng)險(xiǎn)之一,因?yàn)樗鼤?huì)影響機(jī)器學(xué)習(xí)的實(shí)際目的。該公司表示,這是一個(gè)經(jīng)常被忽視的缺陷,可以引發(fā)代價(jià)高昂的錯(cuò)誤,如果不加以控制,可能會(huì)使項(xiàng)目和組織往完全錯(cuò)誤的方向發(fā)展。
麥肯錫表示,如果在一開始就能有效地解決這個(gè)問題,將會(huì)獲得豐厚回報(bào),從而最大限度地實(shí)現(xiàn)機(jī)器學(xué)習(xí)的真正潛力。
資源不足,無(wú)法做好機(jī)器學(xué)習(xí)
在啟動(dòng)機(jī)器學(xué)習(xí)計(jì)劃時(shí),一個(gè)組織很容易低估自身在人員和基礎(chǔ)架構(gòu)方面所需的資源。機(jī)器學(xué)習(xí)可能對(duì)基礎(chǔ)設(shè)施有大量的要求,尤其是在圖像,視頻和音頻處理方面。
約翰遜說(shuō),如果沒有所需的處理能力,而又要及時(shí)開發(fā)基于機(jī)器學(xué)習(xí)的解決方案,往好了說(shuō)是困難的,往壞了說(shuō)壓根就是不可能的。
還存在部署和消費(fèi)問題。如果沒有先決條件基礎(chǔ)設(shè)施來(lái)允許其部署和用戶對(duì)結(jié)果的消費(fèi),那么開發(fā)機(jī)器學(xué)習(xí)解決方案有什么用呢?
部署可擴(kuò)展的基礎(chǔ)架構(gòu)以支持機(jī)器學(xué)習(xí)可能既昂貴又難以維護(hù)。然而,有幾種云服務(wù)可以提供可擴(kuò)展的機(jī)器學(xué)習(xí)平臺(tái),可以按需配置。約翰遜說(shuō),云方法可以大規(guī)模地進(jìn)行機(jī)器學(xué)習(xí),而不會(huì)受到物理硬件采集,配置和部署的束縛。
一些組織希望將他們的基礎(chǔ)設(shè)施內(nèi)部化。如果是這種情況,云服務(wù)可以作為踏腳石和教育體驗(yàn),從而這些組織可以在進(jìn)行大量投資之前從基礎(chǔ)架構(gòu)的角度了解機(jī)器學(xué)習(xí)需要什么。
從人員角度來(lái)看,缺乏知識(shí)淵博的資源,如數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師,可能會(huì)使機(jī)器學(xué)習(xí)的開發(fā)和部署脫離正軌。擁有了解機(jī)器學(xué)習(xí)概念及其應(yīng)用和解讀的人才,以確定是否實(shí)現(xiàn)了特定的業(yè)務(wù)成果,這一點(diǎn)至關(guān)重要。
約翰遜說(shuō),不能低估擁有豐富的機(jī)器學(xué)習(xí)技能的重要性。知識(shí)淵博的人可以幫助識(shí)別數(shù)據(jù)質(zhì)量問題,確保正確使用和部署機(jī)器學(xué)習(xí)工具,并幫助建立最佳實(shí)踐和管理策略。
糟糕的計(jì)劃和管理的缺乏會(huì)破壞機(jī)器學(xué)習(xí)
對(duì)機(jī)器學(xué)習(xí)的努力可能會(huì)以熱情開始,但隨后失去動(dòng)力并陷入停頓。這表明計(jì)劃不周,缺乏管理。
如果不采取適當(dāng)?shù)闹笇?dǎo)方針和限制,機(jī)器學(xué)習(xí)工作將無(wú)限期地繼續(xù)存在,可能導(dǎo)致巨大的資源支出而不會(huì)取得任何好處,約翰遜說(shuō)。
組織們需要記住,機(jī)器學(xué)習(xí)是一個(gè)迭代過程,模型的修改可能會(huì)隨著時(shí)間的推移而不斷發(fā)生,以支持不斷變化的需求。結(jié)果就是,從事機(jī)器學(xué)習(xí)的人可能對(duì)完成工作缺乏興趣,這可能導(dǎo)致不良結(jié)果。項(xiàng)目發(fā)起人可能會(huì)轉(zhuǎn)向其他工作,機(jī)器學(xué)習(xí)工作最終會(huì)停滯不前。
約翰遜說(shuō),需要定期監(jiān)控機(jī)器學(xué)習(xí)工作,以確保事情順利進(jìn)行。如果進(jìn)度開始放緩,可能是時(shí)候休息一下并重新審視這個(gè)項(xiàng)目了。
-
模型
+關(guān)注
關(guān)注
1文章
3305瀏覽量
49220 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
133084
原文標(biāo)題:機(jī)器學(xué)習(xí)失敗的 6 種原因,你中招了嗎?
文章出處:【微信號(hào):mcuworld,微信公眾號(hào):嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論