機器學習：決策樹--python

今天，我們介紹機器學習里比較常用的一種分類算法，決策樹。決策樹是對人類認知識別的一種模擬，給你一堆看似雜亂無章的數據，如何用盡可能少的特征，對這些數據進行有效的分類。

決策樹借助了一種層級分類的概念，每一次都選擇一個區分性最好的特征進行分類，對于可以直接給出標簽 label 的數據，可能最初選擇的幾個特征就能很好地進行區分，有些數據可能需要更多的特征，所以決策樹的深度也就表示了你需要選擇的幾種特征。

在進行特征選擇的時候，常常需要借助信息論的概念，利用最大熵原則。

決策樹一般是用來對離散數據進行分類的，對于連續數據，可以事先對其離散化。

在介紹決策樹之前，我們先簡單的介紹一下信息熵，我們知道，熵的定義為：

機器學習：決策樹--python

我們先構造一些簡單的數據：

from sklearn import datasets

import numpy as np

import matplotlib.pyplot as plt

import math

import operator

def Create_data（）：

dataset = ［［1，1，‘yes’］，

［1， 1，‘yes’］，

［1， 0， ‘no’］，

［0， 1， ‘no’］，

［3， 0， ‘maybe’］］

feat_name = ［‘no surf acing’， ‘flippers’］

return dataset， feat_name

然后定義一個計算熵的函數：

def Cal_entrpy（dataset）：

n_sample = len（dataset）

n_label = {}

for featvec in dataset：

current_label = featvec［-1］

if current_label not in n_label.keys（）：

n_label［current_label］ = 0

n_label［current_label］ += 1

shannonEnt = 0.0

for key in n_label：

prob = float（n_label［key］） / n_sample

shannonEnt -= prob * math.log（prob， 2）

return shannonEnt

要注意的是，熵越大，說明數據的類別越分散，越呈現某種無序的狀態。

下面再定義一個拆分數據集的函數：

def Split_dataset（dataset， axis， value）：

retDataSet = ［］

for featVec in dataset：

if featVec［axis］ == value：

reducedFeatVec = featVec［：axis］

reducedFeatVec.extend（featVec［axis+1 ：］）

retDataSet.append（reducedFeatVec）

return retDataSet

結合前面的幾個函數，我們可以構造一個特征選擇的函數：

def Choose_feature（dataset）：

num_sample = len（dataset）

num_feature = len（dataset［0］） - 1

baseEntrpy = Cal_entrpy（dataset）

best_Infogain = 0.0

bestFeat = -1

for i in range （num_feature）：

featlist = ［example［i］ for example in dataset］

uniquValus = set（featlist）

newEntrpy = 0.0

for value in uniquValus：

subData = Split_dataset（dataset， i， value）

prob = len（subData） / float（num_sample）

newEntrpy += prob * Cal_entrpy（subData）

info_gain = baseEntrpy - newEntrpy

if （info_gain 》 best_Infogain）：

best_Infogain = info_gain

bestFeat = i

return bestFeat

然后再構造一個投票及計票的函數

def Major_cnt（classlist）：

class_num = {}

for vote in classlist：

if vote not in class_num.keys（）：

class_num［vote］ = 0

class_num［vote］ += 1

Sort_K = sorted（class_num.iteritems（），

key = operator.itemgetter（1）， reverse=True）

return Sort_K［0］［0］

有了這些，就可以構造我們需要的決策樹了：

def Create_tree（dataset， featName）：

classlist = ［example［-1］ for example in dataset］

if classlist.count（classlist［0］） == len（classlist）：

return classlist［0］

if len（dataset［0］） == 1：

return Major_cnt（classlist）

bestFeat = Choose_feature（dataset）

bestFeatName = featName［bestFeat］

myTree = {bestFeatName： {}}

del（featName［bestFeat］）

featValues = ［example［bestFeat］ for example in dataset］

uniqueVals = set（featValues）

for value in uniqueVals：

subLabels = featName［：］

myTree［bestFeatName］［value］ = Create_tree（Split_dataset

（dataset， bestFeat， value）， subLabels）

return myTree

def Get_numleafs（myTree）：

numLeafs = 0

firstStr = myTree.keys（）［0］

secondDict = myTree［firstStr］

for key in secondDict.keys（）：

if type（secondDict［key］）.__name__ == ‘dict’ ：

numLeafs += Get_numleafs（secondDict［key］）

else：

numLeafs += 1

return numLeafs

def Get_treedepth（myTree）：

max_depth = 0

firstStr = myTree.keys（）［0］

secondDict = myTree［firstStr］

for key in secondDict.keys（）：

if type（secondDict［key］）.__name__ == ‘dict’ ：

this_depth = 1 + Get_treedepth（secondDict［key］）

else：

this_depth = 1

if this_depth 》 max_depth：

max_depth = this_depth

return max_depth

閱讀全文

12 下一頁全文

python(82776) python(82776)
決策樹(13272) 決策樹(13272)

基于Python實現隨機森林算法

機器學習算法是數據挖掘、數據能力分析和數學建模必不可少的一部分，而隨機森林算法和決策樹算法是其中較為常用的兩種算法，本文將會對隨機森林算法的Python實現進行保姆級教學。

2023-09-21 11:17:28

185

【下載】《機器學習》+《機器學習實戰》

]目錄：第一部分　分類第1章　機器學習基礎　　2第2章　k-近鄰算法　　15第3章　決策樹 　　32第4章　基于概率論的分類方法：樸素貝葉斯　　53第5章　Logistic回歸　　73第6章

2017-06-01 15:49:24

決策樹引擎解決方案

電子發燒友網站提供《決策樹引擎解決方案.pdf》資料免費下載

2023-09-13 11:17:52

python數據挖掘與機器學習

python數據挖掘與機器學習 Python是一個非常流行的編程語言，被廣泛用于數據挖掘和機器學習領域。在本篇文章中，我們將探討Python在數據挖掘和機器學習中的應用，并介紹一些Python中常

2023-08-17 16:29:38

388

python機器學習概述

Python機器學習概述機器學習是人工智能領域的一個重要分支，是一種可以自動改進和學習的算法。在過去的幾十年里，機器學習已經成為計算機科學和數據科學領域中最流行、應用最廣泛的領域之一。Python

2023-08-17 16:11:43

304

常見的機器學習算法及其應用場景

決策樹是一個樹結構（可以是二叉樹或非二叉樹），其每個非葉節點表示一個特征屬性上的測試，每個分支代表這個特征屬性在某個值域上的輸出，而每個葉節點存放一個輸出類別。使用決策樹進行決策的過程就是從根節點

2023-08-11 12:24:50

257

決策樹的剪枝#機器學習

機器學習

未來加油dz發布于 2023-07-14 16:10:15

什么是集成學習算法-1

同質集成:只包含同種類型算法，比如決策樹集成全是決策樹，異質集成:包含不同種類型算法，比如同時包含神經網絡和決策樹

2023-02-24 16:37:28

340

基于集成學習的決策介紹（下）

本文主要介紹基于集成學習的決策樹，其主要通過不同學習框架生產基學習器，并綜合所有基學習器的預測結果來改善單個基學習器的識別率和泛化性。

2023-02-17 15:52:12

255

基于集成學習的決策介紹（上）

2023-02-17 15:52:09

340

[8.1.1]--決策樹原理

機器學習

jf_90840116發布于 2022-12-10 19:47:17

大數據—決策樹

大數據————決策樹（decision tree） 決策樹（decision tree）：是一種基本的分類與回歸方法，主要討論分類的決策樹。在分類問題中，表示基于特征對實例進行分類的過程，可以

2022-10-20 10:01:36

565

GitHub上的機器學習核心存儲庫和運動

　　支持的傳感器是獨一無二的，因為它們都有一個機器學習核心，可以并行運行一個或多個決策樹。ST 是第一個提供此類組件的公司，并因此獲得了獎項。它仍然是獨一無二的，因為機器學習核心可以以微控制器功耗的一小部分提供決策能力。

2022-05-11 16:20:36

655

機器學習之決策樹生成詳解

根據給定的數據集創建一個決策樹就是機器學習的課程，創建一個決策樹可能會花費較多的時間，但是使用一個決策樹卻非常快。創建決策樹時最關鍵的問題就是選取哪一個特征作為分類特征，好的分類特征能夠最大化的把

2021-08-27 14:38:54

17971

基于遺傳優化決策樹的建筑能耗預測模型

基于遺傳優化決策樹的建筑能耗預測模型

2021-06-27 16:19:13

基于文本挖掘和決策樹的中國手游產業分析

針對中國傳統的手游產業發展存在主題識別不精準，缺乏利用數據挖掘和可視化分析方法等問題，文中提出了一種基于文本挖掘和決策樹（ Desision tree）分析的中國手游產業發展研究方法，從多方面分析了

2021-06-17 16:16:33

基于非均衡數據分類的猶豫模糊決策樹

為優化針對非均衡數據的分類效果，結合猶豫模糊集理論與決策樹算法，提出一種改進的模糊決策樹算法。通過 SMOTE算法對非均衡數據進行過采樣處理，使用K- means聚類方法獲得各屬性的聚類中心點，利用

2021-06-09 15:51:47

可提高心電信號分類識別準確率的模糊決策樹

為提高心電信號分類識別的準確率，提出一種基于時頻特征融合與動態模糊決策樹的心電信號分類識別方法。對心電信號依次進行周期分割、小波包分解與重構和形態識別處理，將小波包變換系數矩陣的二范數作為頻域特征

2021-05-28 10:34:48

決策樹的結構/優缺點/生成

決策樹（DecisionTree）是機器學習中一種常見的算法，它的思想非常樸素，就像我們平時利用選擇做決策的過程。決策樹是一種基本的分類與回歸方法，當被用于分類時叫做分類樹，被用于回歸時叫做回歸樹。

2021-03-04 10:11:13

7322

python機器學習筆記資料免費下載

本文檔的主要內容詳細介紹的是python機器學習筆記資料免費python機器學習筆記資料免費下載。

2021-03-01 10:09:38

什么是決策樹模型，決策樹模型的繪制方法

決策樹是一種解決分類問題的算法，本文將介紹什么是決策樹模型，常見的用途，以及如何使用“億圖圖示”軟件繪制決策樹模型。

2021-02-18 10:12:20

11325

決策樹的判斷標準及算法

在決策樹中，可能有多個特征，但是一些特征是無關重要的，一些則是對分類（target）起到決定作用的。

2021-02-18 10:06:29

3401

決策樹的一般流程及應用

所有的機器學習算法中，決策樹應該是最友好的了。它呢，在整個運行機制上可以很容易地被翻譯成人們能看懂的語言，也因此被歸為“白盒模型”。

2021-01-29 09:36:40

6815

決策樹的基本概念/學習步驟/算法/優缺點

本文將介紹決策樹的基本概念、決策樹學習的3個步驟、3種典型的決策樹算法、決策樹的10個優缺點。

2021-01-27 10:03:20

1918

使用基尼不純度拆分決策樹的步驟

決策樹是機器學習中使用的最流行和功能最強大的分類算法之一。顧名思義，決策樹用于根據給定的數據集做出決策。也就是說，它有助于選擇適當的特征以將樹分成類似于人類思維脈絡的子部分。

2021-01-13 09:37:41

1093

機器學習中常用的決策樹算法技術解析

決策樹是最重要的機器學習算法之一，其可被用于分類和回歸問題。本文中，我們將介紹分類部分。

2020-10-12 16:39:34

1012

建立決策樹的邏輯

像上面的這樣的二叉樹狀決策在我們生活中很常見，而這樣的選擇方法就是決策樹。機器學習的方法就是通過平時生活中的點點滴滴經驗轉化而來的。

2020-10-10 10:44:19

2140

決策樹的構成要素及算法

決策樹是一種解決分類問題的算法，決策樹算法采用樹形結構，使用層層推理來實現最終的分類。

2020-08-27 09:52:48

3138

一文知道決策樹的優缺點

決策樹易于理解和解釋，可以可視化分析，容易提取出規則。

2020-08-27 09:50:07

15078

人工智能、機器學習以及深度學習三者之間的關系是什么？

“訓練”，通過各種算法從數據中學習如何完成任務。機器學習傳統的算法包括決策樹、聚類、貝葉斯分類等。從學習方法上來分可以分為監督學習、無監督學習、半監督學習、集成學習、深度學習和強化學習。

2020-07-26 11:14:44

10456

詳談機器學習的決策樹模型

決策樹模型是白盒模型的一種，其預測結果可以由人來解釋。我們把機器學習模型的這一特性稱為可解釋性，但并不是所有的機器學習模型都具有可解釋性。

2020-07-06 09:49:06

2860

詳解機器學習決策樹的優缺點

決策樹（Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大于等于零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。

2020-01-19 17:06:00

6906

開發成功的機器學習應用程序需要一定的“偏方”

澄清說明：分類器與學習器的含義是什么？假設你有訓練數據，并使用你構建另一個程序（模型）的程序處理這些數據，例如決策樹。學習器是從輸入數據構建決策樹模型的程序，而決策樹模型是分類器（能夠為每個輸入數據實例提供預測輸出的東西）。

2019-05-16 18:18:25

2493

如何使用最優二叉決策樹分類模型進行奶牛運動行為的識別

針對奶牛行為分類過程中決策樹算法構建主觀性強、閾值選取無確定規則，易導致分類精度差的問題，該文提出一種基于最優二叉決策樹分類模型的奶牛運動行為識別方法，首先選取描述奶牛腿部三軸加速度數值大小、對稱性

2019-04-24 08:00:00

決策樹和隨機森林模型

我們知道決策樹容易過擬合。換句話說，單個決策樹可以很好地找到特定問題的解決方案，但如果應用于以前從未見過的問題則非常糟糕。俗話說三個臭皮匠賽過諸葛亮，隨機森林就利用了多個決策樹，來應對多種不同場景。

2019-04-19 14:38:02

7210

如何使用針對不平衡數據進行決策樹改進方法資料說明

針對異常檢測中異常數據與正常數據的比例嚴重不平衡導致決策樹性能下降的問題，提出了C4.5決策樹的三種改進方法一C4.5 +δ、均勻分布熵（ UDE）和改進分布熵函數（IDEF）。首先，推導了C4.5

2019-03-27 10:56:06

什么是決策樹?決策樹算法思考總結

C4.5算法：基于ID3算法的改進，主要包括：使用信息增益率替換了信息增益下降度作為屬性選擇的標準；在決策樹構造的同時進行剪枝操作；避免了樹的過度擬合情況；可以對不完整屬性和連續型數據進行處理，提升了算法的普適性。

2019-02-04 09:45:00

9264

基于決策樹算法的電能表故障預測方法

今天為大家介紹一項國家發明授權專利——基于決策樹算法的電能表故障預測方法。該專利由國電南瑞科技股份有限公司申請，并于2018年11月30日獲得授權公告。

2018-12-17 11:40:35

1438

機器學習教程之機器學習導論的詳細電子教材免費下載

對機器學習的定義和應用實例進行了介紹，涵蓋了監督學習。貝葉斯決策理論。參數方法、多元方法、維度歸約、聚類、非參數方法、決策樹。線性判別式、多層感知器，局部模型、隱馬爾可夫模型。分類算法評估和比較，組合多學習器以及增強學習等。

2018-12-14 15:03:55

機器學習教程之機器學習的十三個經典課件資料免費下載

本文檔的主要內容詳細介紹的是機器學習教程之機器學習的十三個經典課件資料免費下載主要內容包括了：1，引言 2，基于符號和邏輯表示的概念學習 3，決策樹 4，人工神經網絡 5，統計和估計理論的基礎概念

2018-11-22 17:36:01

決策樹的原理和決策樹構建的準備工作，機器學習決策樹的原理

希望通過所給的訓練數據學習一個貸款申請的決策樹，用于對未來的貸款申請進行分類，即當新的客戶提出貸款申請時，根據申請人的特征利用決策樹決定是否批準貸款申請。

2018-10-08 14:26:09

5361

人工智能之機器學習CART算法解析

CART（Classification andRegression Tree）分類回歸樹是一種決策樹構建算法。CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分布的學習方法。CART

2018-09-05 10:00:00

4254

深度神經決策樹：深度神經網絡和樹模型結合的新模型

近日，來自愛丁堡大學的研究人員提出了一種結合深度神經網絡和樹模型的新型模型——深度神經決策樹(Deep Neural Decision Trees, DNDT)。

2018-08-19 09:14:44

11530

在工程師的手中，我們可以用機器學習搭建自己的音樂夢想！

萬萬沒想到，在工程師的手中，我們可以用機器學習搭建自己的音以決策樹為例，這是一種常見的機器學習算法，并不涉及“神經網絡”、“深度學習”的范疇。簡言之，決策樹是一種以遞歸方式學習每個特征的閾值并將數據分類的系統。

2018-08-01 09:41:43

2556

結合深度神經網絡和決策樹的完美方案

“ANT的出發點與mGBDT類似，都是期望將神經網絡的表示學習和決策樹的特點做一個結合，不過，ANT依舊依賴神經網絡BP算法進行的實現，”馮霽說：“而深度森林（gcForest/mGBDT）的目的

2018-07-25 09:39:01

8769

數據挖掘算法：決策樹算法如何學習及分裂剪枝

決策樹（decision tree）算法基于特征屬性進行分類，其主要的優點：模型具有可讀性，計算量小，分類速度快。決策樹算法包括了由Quinlan提出的ID3與C4.5，Breiman等提出的CART。其中，C4.5是基于ID3的，對分裂屬性的目標函數做出了改進。

2018-07-21 10:13:29

5056

構建一個決策樹并查看它如何進行預測

正如你所看到的，決策樹非常直觀，他們的決策很容易解釋。這種模型通常被稱為白盒模型。相反，正如我們將看到的，隨機森林或神經網絡通常被認為是黑匣子模型。他們做出了很好的預測，并且我們可以輕松檢查他們執行的計算以進行這些預測; 然而，通常很難用簡單的術語來解釋為什么會做出預測。

2018-07-16 17:12:01

13687

人工智能機器學習之隨機森林(RF)

決策樹主要用來解決分類和回歸問題，但是決策樹（DT）會產生過擬合現象，導致泛化能力變弱。過擬合是建立決策樹模型時面臨的重要挑戰之一。鑒于決策樹容易過擬合的缺點，由美國貝爾實驗室大牛們提出了采用隨機森林（RF）投票機制來改善決策樹。

2018-05-30 06:59:00

2811

帶你了解一下人工智能中的決策樹(DT)

決策樹（DT）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大于等于零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干，故稱決策樹。從數據產生決策樹的機器學習技術叫做決策樹學習。

2018-05-29 07:12:00

1583

大神教你怎么用Python抓取婚戀網用戶數據，用決策樹生成自己擇偶觀

機器學習中，決策樹是一個預測模型，它代表的是對象屬性與對象值之間的一種映射關系。樹中每個節點表示某個對象，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所

2018-05-28 10:53:25

3732

基于決策樹的在軌衛星故障診斷知識挖掘

針對目前衛星在軌故障診斷后驗證知識獲取困難，隨著衛星在軌運行功能或性能退化導致門限診斷精度下降的問題，本文深入研究了衛星在軌管理過程中積累的異常數據和故障案例，提出了一種基于決策樹的在軌衛星故障診斷

2018-02-23 10:50:30

海量嘈雜數據決策樹算法

針對當前決策樹算法較少考慮訓練集的嘈雜程度對模型的影響，以及傳統駐留內存算法處理海量數據困難的問題，提出一種基于Hadoop平臺的不確定概率C4.5算法-IP-C4.5算法。在訓練模型

2018-01-13 09:41:38

基于粗決策樹的動態規則提取算法

針對靜態算法對大數據和增量數據處理不足的問題，構造了基于粗決策樹的動態規則提取算法，并將其應用于旋轉機械故障診斷中。將粗集與決策樹結合，用增量方式實現樣本抽取；經過動態約簡、決策樹構造、規則提取

2017-12-29 14:24:05

決策樹C4.5算法屬性取值優化研究

決策樹算法是一種最簡單、最直接、最有效的文本分類算法。最早的決策樹算法是ID3算法，于1986年由Quinlan提出，該算法是一種基于信息熵的決策樹分類算法。由于該算法是以信息熵作為屬性選擇的標準

2017-12-12 11:20:55

MATLAB編譯生成AUTOLISP代碼實現可變ID3基因分型決策樹分類圖的繪制

決策樹分類器，是一種基于實例的分類算法，廣泛被應用于人工智能領域。ID3算法是最為經典的決策樹建樹算法，它通過遞歸和逐次挑選信息量最多的屬性來構造決策樹。決策樹的結構有時非常龐大和復雜，而決策樹分類

2017-12-07 11:23:03

使決策樹規模最小化算法

決策樹技術在數據挖掘的分類領域應用極其廣泛，可以從普通決策表（每行記錄包含一個決策值）中挖掘有價值的信息，但是要從多值決策表（每行記錄包含多個決策值）中挖掘潛在的信息則比較困難。多值決策表中每行記錄

2017-12-05 15:47:26

基于貪心算法的非一致決策表的決策樹分析方法

決策樹技術在數據挖掘的分類領域中被廣泛采用。采用決策樹從一致決策表f即條件屬性值相同的樣本其決策值相同）中挖掘有價值信息的相關研究較為成熟，而對于非一致決策表（即條件屬性值相同的樣本其決策值

2017-12-05 14:30:45

一種新型的決策樹剪枝優化算法

目前關于決策樹剪枝優化方面的研究主要集中于預剪枝和后剪枝算法。然而，這些剪枝算法通常作用于傳統的決策樹分類算法，在代價敏感學習與剪枝優化算法相結合方面還沒有較好的研究成果。基于經濟學中的效益成本

2017-11-30 10:05:19

基于Bagging決策樹優化算法

針對經典C4.5決策樹算法存在過度擬合和伸縮性差的問題，提出了一種基于Bagging的決策樹改進算法，并基于MapReduce模型對改進算法進行了并行化。首先，基于Bagging技術對C4.5算法

2017-11-21 11:57:08

決策樹的構建設計并用Graphviz實現決策樹的可視化

最近打算系統學習下機器學習的基礎算法，避免眼高手低，決定把常用的機器學習基礎算法都實現一遍以便加深印象。本文為這系列博客的第一篇，關于決策樹(Decision Tree)的算法實現，文中我將對決策樹

2017-11-15 13:10:04

14051

基于ID3的決策樹算法研究

路徑最短，從而提升分類的速度和準確率。通過實例對改進算法生成決策樹產生的結果分析，表明了該算法生成的決策樹結構更簡單，時間復雜度更優。算法更有效。

2017-11-14 14:08:05

采用ID3和C4.5算法生成決策樹在學生管理系統中應用

決策樹算法最早源于人工智能的機器學習技術，用以實現數據內在規律的探究和新數據對象的分類預測U。由于其出色的數據分析能力和直觀易懂的結果展示等特點，決策樹成為一種重要的數據挖掘技術。隨著信息化技術

2017-10-28 12:58:36

解讀決策樹與隨機森林模型的概念

為什么要引入隨機森林呢。我們知道，同一批數據，我們只能產生一顆決策樹，這個變化就比較單一了，這就有了集成學習的概念。

2017-10-18 17:47:37

3329

已全部加載完成

搜索歷史

機器學習：決策樹--python

評論