大赢家网上,进入优惠大厅的说说搞笑图片带字大全 ,龙亨足球博彩网(中国)·官方网站

StackOverflow人氣答主（top 0.12%）Amro通過一個簡單的二元分類決策樹例子，簡明扼要地解釋了信息熵和信息增益這兩個概念。

為了解釋熵這個概念，讓我們想象一個分類男女名字的監督學習任務。給定一個名字列表，每個名字標記為m（男）或f（女），我們想要學習一個擬合數據的模型，該模型可以用來預測未見的新名字的性別。

現在我們想要預測“Amro”的性別（Amro是我的名字）。

第一步，我們需要判定哪些數據特征和我們想要預測的目標分類相關。一些特征的例子包括：首/末字母、長度、元音數量、是否以元音結尾，等等。所以，提取特征之后，我們的數據是這樣的：

我們可以構建一棵決策樹，一棵樹的例子：

長度<7

| 元音數量<3: 男

| 元音數量>=3

| | 元音結尾=1: 女

| | 元音結尾=0: 男

長度>=7

| 長度=5: 男

基本上，每個節點代表在單一屬性上進行的測試，我們根據測試的結果決定向左還是向右。我們持續沿著樹走，直到我們到達包含分類預測的葉節點（m或f）。

因此，如果我們運行這棵決策樹判定Amro，我們首次測試“長度<7？”答案為是，因此我們沿著分支往下，下一個測試是“元音數量<3？”答案同樣為真。這將我們導向標簽為m的葉節點，因此預測是男性（我碰巧是男性，因此這棵決策樹的預測正確）。

決策樹以自頂向下的方式創建，但問題在于如何選擇分割每個節點的屬性？答案是找到能將目標分類分割為盡可能純粹的子節點的特征（即：只包含單一分類的純粹節點優于同時包含男名和女名的混合節點）。

這一純粹性的量度稱為信息。它表示，給定到達節點的樣本，指定一個新實例（名字）應該被分類為男性或女性的期望的信息量。我們根據節點處的男名分類和女名分類的數量計算它。

另一方面，熵是不純粹性的量度（與信息相反）。對二元分類而言，熵的定義為：

Entropy = - p(a)*log(p(a)) - p(b)*log(p(b))

這一二元熵函數的圖像如下圖所示。當概率為p=1/2時，該函數達到其最大值，這意味著p(X=a)=0.5或類似的p(X=b)=0.5，即50%對50%的概率為a或b（不確定性最大）。當概率為p=1或p=0時（完全確定），熵函數達到其最小值零（p(X=a)=1或p(X=a)=0，后者意味著p(X=b)=1）。

當然，熵的定義可以推廣到有N個離散值（超過2）的隨機變量X：

（公式中的log通常為以2為底的對數）

回到我們的名字分類任務中，讓我們看一個例子。想象一下，在構建決策樹的過程中的某一點，我們考慮如下分割：

以元音結尾

[9m,5f]

/ \

=1 =0

------- -------

[3m,4f] [6m,1f]

如你所見，在分割前，我們有9個男名、5個女名，即P(m)=9/14，P(f)=5/14。根據熵的定義，分割前的熵為：

Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403

接下來我們將其與分割后的熵比較。在以元音結尾為真=1的左分支中，我們有：

Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852

而在以元音結尾為假=0的右分支中，我們有：

Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.5917

我們以每個分支上的實例數量作為權重因子（7個實例向左，7個實例向右），得出分割后的最終權重：

Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885

現在比較分割前后的權重，我們得到信息增益的這一量度，也就是說，基于特定特征進行分割后，我們獲得了多少信息：

Information_Gain = Entropy_before - Entropy_after = 0.1518

你可以如此解釋以上運算：通過以“元音結尾”特征進行分割，我們得以降低子樹預測輸出的不確定性，降幅為一個較小的數值0.1518（單位為比特，比特為信息單位）。

在樹的每一個節點，為每個特征進行這一運算，以貪婪的方式選擇可以取得最大信息增益的特征進行分割（從而偏好產生較低不確定性/熵的純分割）。從根節點向下遞歸應用此過程，停止于包含的節點均屬同一分類的葉節點（不用再進一步分割了）。

注意，我省略了超出本文范圍的一些細節，包含如何處理數值特征、缺失特征、過擬合、剪枝樹，等等。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

決策樹

決策樹

+關注

關注
3

文章
96

瀏覽量
13587
信息熵

信息熵

+關注

關注
0

文章
13

瀏覽量
7119

原文標題：信息論視角下的決策樹算法：信息熵和信息增益

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

關于決策樹，這些知識點不可錯過

的一種算法。它既是分類算法，也是回歸算法，還可以用在隨機森林中。咱們學計算機的同學經常敲if 、else if、else其實就已經在用到決策樹的思想了。決策樹是

發表于 05-23 09:38

數據挖掘十大經典算法，你都知道哪些！

，ID3使用的是熵（shang），一種不純度度量準則，也就是熵的變化值，而C4.5用的是信息增益率。區別就在于

發表于 11-06 17:02

決策樹的生成資料

在本文中，我們將討論一種監督式學習算法。最新一代意法半導體 MEMS 傳感器內置一個基于決策樹分類

發表于 09-08 06:50

一個基于粗集的決策樹規則提取算法

一個基于粗集的決策樹規則提取算法:摘要：決策樹是數據挖掘任務中分類的常用方法。在構造決策樹的過程

發表于 10-10 15:13 ?12次下載

改進決策樹算法的應用研究

該方法利用決策樹算法構造決策樹,通過對分類結果中主客觀屬性進行標記并邏輯運算,最終得到較客觀的決策信息

發表于 02-07 11:38 ?27次下載

機器學習之決策樹生成詳解

根據給定的數據集創建一個決策樹就是機器學習的課程，創建一個決策樹可能會花費較多的時間，但是使用

發表于 08-27 14:38 ?1.9w次閱讀

決策樹C4.5算法屬性取值優化研究

決策樹算法是一種最簡單、最直接、最有效的文本分類算法。最早的決策樹算法是ID3算法，于1986年由Quinlan提出，該算法是

發表于 12-12 11:20 ?0次下載

決策樹的原理和決策樹構建的準備工作，機器學習決策樹的原理

希望通過所給的訓練數據學習一個貸款申請的決策樹，用于對未來的貸款申請進行分類，即當新的客戶提出貸款申請時，根據申請人的特征利用

發表于 10-08 14:26 ?6106次閱讀

什么是決策樹?決策樹算法思考總結

C4.5算法：基于ID3算法的改進，主要包括：使用信息增益率替換了信息增益下降度作為屬性選擇的標準；在決策樹構造的同時進行剪枝操作；避免了

發表于 02-04 09:45 ?1.2w次閱讀

如何使用最優二叉決策樹分類模型進行奶牛運動行為的識別

、陡峭程度、變異程度、不確定性及夾角的 24 個統計特征量，其次通過構建 ROC（receiver operating characteristic，ROC）曲線獲得各統計特征量的最佳行為類別分組方式及最優閾值，然后利用信息

發表于 04-24 08:00 ?0次下載

決策樹的構成要素及算法

決策樹是一種解決分類問題的算法，決策樹算法采用樹形結構，使用層層推理來實現最終的分類。

發表于 08-27 09:52 ?4421次閱讀

決策樹的基本概念/學習步驟/算法/優缺點

本文將介紹決策樹的基本概念、決策樹學習的3個步驟、3種典型的決策樹算法、決策樹的10

發表于 01-27 10:03 ?2712次閱讀

什么是決策樹模型，決策樹模型的繪制方法

決策樹是一種解決分類問題的算法，本文將介紹什么是決策樹模型，常見的用途，以及如何使用“億圖圖示”軟件繪制決策樹模型。

發表于 02-18 10:12 ?1.3w次閱讀

基于非均衡數據分類的猶豫模糊決策樹

2種不同的隸屬度函數對數據集進行模糊化處理。在此基礎上，根據隸屬度函數和猶豫模糊集的信息能量求得各屬性的猶豫模糊信息增益，選取最大值替代Fuκzy⑩3算法中的模糊信息

發表于 06-09 15:51 ?5次下載

大數據—決策樹

認為是if-then的集合，也可以認為是定義在特征空間與類空間上的條件概率分布。 決策樹通常有三個步驟：特征選擇、決策樹的生成、決策樹的修剪。用決

發表于 10-20 10:01 ?1275次閱讀