人類一直試圖讓機器具有智能,也就是人工智能(Artificial Intelligence)。從上世紀50年代,人工智能的發展經歷了“推理期”,通過賦予機器邏輯推理能力使機器獲得智能,當時的AI程序能夠證明一些著名的數學定理,但由于機器缺乏知識,遠不能實現真正的智能。因此,70年代,人工智能的發展進入“知識期”,即將人類的知識總結出來教給機器,使機器獲得智能。 無論是“推理期”還是“知識期”,機器都是按照人類設定的規則和總結的知識運作,永遠無法超越其創造者,其次人力成本太高。于是,一些學者就想到,如果機器能夠自我學習問題不就迎刃而解了嗎!機器學習(Machine Learning)方法應運而生,人工智能進入“機器學習時期”。機器學習的核心是“使用算法解析數據,從中學習,然后對世界上的某件事情做出決定或預測”。機器學習最大的突破是2006年的深度學習。深度學習是一類機器學習,目的是模仿人腦的思維過程,經常用于圖像和語音識別。深度學習的出現導致了我們今天使用的(可能是理所當然的)許多技術。當你問你的iPhone關于今天的天氣時,你的話語會用一種復雜的語音解析算法進行分析。如果沒有深度學習,這一切都是不可能的。
機器學習與統計區別
機器學習是一類算法的總稱,這些算法企圖從大量歷史數據中挖掘出其中隱含的規律,并用于預測或者分類,更具體的說,機器學習可以看作是尋找一個函數,輸入是樣本數據,輸出是期望的結果,只是這個函數過于復雜,以至于不太方便形式化表達。
通常學習一個好的函數,分為以下三步:
1、選擇一個合適的模型,這通常需要依據實際問題而定,針對不同的問題和任務需要選取恰當的模型。
2、判斷一個函數的好壞,這需要確定一個衡量標準,如回歸問題一般采用歐式距離,分類問題一般采用交叉驗證函數。
3、找出“最好”的函數,如何從眾多函數中最快的找出“最好”的那一個,學習得到“最好”的函數后,需要在新樣本上進行測試,只有在新樣本上表現很好,才算是一個“好”的函數。
機器學習的核心是“使用算法解析數據,從中學習,然后對世界上的某件事情做出決定或預測”。這意味著,與其顯式地編寫程序來執行某些任務,不如教計算機如何開發一個算法來完成任務。有三種主要類型的機器學習:監督學習、非監督學習和強化學習。
【案例分享】為了預測過程輸出性能,提高客戶滿意度及產品質量,現從數據庫中批量導入了2019年5月份生產報表,檢測產品能否滿足規格要求及相關生產環境,試分析影響產品質量的相關原因及預測結果。
本例共有9個變量,近5000個測試數據,其數據表如下:
在Minitab最新發布的版本Minitab19.2020中,除了可以將Python的腳本可以導入Minitab加載分析之外,還增加了機器學習的CART分析法。我們將上述案例用CART分析步驟如下:
1、統計---預測分析---CART分類,將響應和影響因子分別填入對應位置
2、點擊 先驗/成本,設置誤分類成本
誤分類成本就是判斷錯誤的風險,例如,在醫學影像檢測中,把健康的人誤診為病人還不是最糟的情況,只要醫生能對診斷結果進行復查,并把健康的這個人找出來就可以了。但反過來,未能診斷出真正的病人而不提供給他任何治療,則就非常危險了。默認情況下,Minitab 使用相等的成本 1。
3、點擊 驗證,選擇驗證方法
設置模型驗證:數據通常被分為訓練數據和測試數據
訓練數據(學習數據)通常被用來創建模型及評估模型的系數;測試數據通常檢模型性能,通過測試數據得到擬合值,在用訓練數據的數據和對應的擬合值進行比較來檢驗模型的預測性能通過驗證,防止模型過度擬合若用同一組數據來擬合模型并評估模型的擬合優度,會導致過度擬合,過度擬合的模型并不能用于很好的預測…..
4、點擊 選項,設置節點分裂方式
默認的節點分裂,選擇 基尼
對所有對話框點擊 確定,查看Minitab輸出(部分):
默認情況下,Minitab 為誤分類成本在最小誤分類成本 1 個標準誤內的最小樹生成輸出。也可以識別最優樹的序列中探索其他樹。終端節點數越多,模型就越復雜。
ROC曲線指受試者工作特征曲線 / 接收器操作特性曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續變量的綜合指標,是用構圖法揭示敏感性和特異性的相互關系,它通過將連續變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標、(1-特異性)為橫坐標繪制成曲線,曲線下面積越大,診斷準確性越高。
點擊ROC圖左下角的預測,可以根據模型預測不同場景下的輸出概率。
總結:
機器學習是目前業界最為火熱的一項技術,從網上的每一次淘寶的購買東西,到自動駕駛汽車技術,以及網絡攻擊抵御系統等等,都有機器學習的因子在內,同時機器學習也是最有可能使人類完成“AI 夢”的一項技術,各種人工智能目前的應用,如微軟小冰聊天機器人,到計算機視覺技術的進步,都有機器學習努力的成分。作為全球領先的統計分析軟件,Minitab在2018年收購了SPM,并在Minitab.19.2020版中增加了預測分析的CART分類和CART回歸功能,能夠幫助我們了解一些機器學習的相關知識與概念,更好的理解為我們帶來莫大便利技術的背后原理,以及讓我們更好的理解當代科技的進程。
審核編輯:符乾江
-
預測分析
+關注
關注
0文章
11瀏覽量
6450 -
Minitab
+關注
關注
0文章
180瀏覽量
11763 -
機器學習
+關注
關注
66文章
8439瀏覽量
133087
發布評論請先 登錄
相關推薦
評論