資料介紹
聚類分析是將研究對象分為相對同質(zhì)的群組的統(tǒng)計分析技術(shù),聚類分析的核心就是發(fā)現(xiàn)有用的對象簇。K-means聚類算法由于具有出色的速度和良好的可擴展性,一直備受廣大學(xué)者的關(guān)注。然而,傳統(tǒng)的K-means算法,未考慮各個屬性對于最終聚類結(jié)果的影響差異性,這使得聚類的精度有一定的影響。針對上述問題,本文提出一種改進的特征加權(quán)算法。改進算法通過采用信息熵和ReliefF特征選擇算法對特征進行加權(quán)選擇,修正聚類對象間的距離函數(shù),使算法達到更準確更高效的聚類效果。仿真實驗結(jié)果表明,與傳統(tǒng)的K-means算法相比,改進后的算法聚類結(jié)果穩(wěn)定,聚類的精度有明顯提升。
數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,指從大量的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。聚類分析現(xiàn)在已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域中一個非常重要的研究方向。MacQueen 提出的K-means 算法是聚類分析中最常用的方法之一。它采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。K-means 算法假設(shè)樣本的每個特征對最終聚類的貢獻程度一樣,但在實際情況中某些特征在聚類的過程中起到很大的作用,而某些特征的作用卻很小,甚至對聚類過程沒有影響。
?
針對傳統(tǒng)K-means 算法的這一問題,學(xué)者們進行了大量研究,研究表明:通過對特征賦予不同的特征權(quán)值,能夠有效解決上述問題并提高聚類性能。目前,計算特征權(quán)重的算法有很多種:等人提出一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化函數(shù),該函數(shù)通過用戶指定的限制數(shù)據(jù)進行特征權(quán)值量化并對不同的限制數(shù)據(jù)賦予不同的置信度,解決了限制數(shù)據(jù)分布不均勻和限制數(shù)據(jù)中可能包含不一致性的問題;LiJie 等人提出將針對分類問題的ReliefF 算法應(yīng)用于聚類問題,通過ReliefF 算法計算特征權(quán)重值,并對各維特征進行加權(quán),提高聚類的性能;Meng Qian 等人提出通過梯度下降技術(shù)最小化特征評估函數(shù)FLearning (w)為每個特征分配權(quán)重并進行加權(quán),該算法采用遺傳算法和模擬退火算法的優(yōu)點,減弱冗余特征的影響,解決了容易陷入局部最優(yōu)解的問題。Songtao Shang 等人提出一種改進的基尼指數(shù)算法計算特征權(quán)重,該算法克服了原始Gini 的缺點,將條件概率與后驗概率結(jié)合,抑制訓(xùn)練集不平衡時的影響。利用信息論中的信息熵計算特征權(quán)重并對各位特征加權(quán),有效的解決了特征對聚類的影響。
綜上所述,為了提高傳統(tǒng)K-means 算法的聚類精度,國內(nèi)外學(xué)者對K-means 算法進行了大量改進探索研究,并取得了一些階段性的成果。本文擬研究傳統(tǒng)K-means 算法在聚類過程中聚類對象的每個特征對聚類結(jié)果的貢獻度,使貢獻程度大的特征優(yōu)先利用,理論上講可以有效提升K-means 算法聚類的準確率和精度。因此,本文提出將熵值法和ReliefF 特征選擇算法有機融合,通過采用信息熵和ReliefF 特征選擇算法對特征進行加權(quán)選擇,修正聚類對象間的距離函數(shù),使算法達到更準確更高效的聚類效果。實驗結(jié)果表明,改進后的算法聚類結(jié)果穩(wěn)定,且具有較高的準確率,達到預(yù)期目的。
- 基于特征和實例遷移的加權(quán)多任務(wù)聚類算法 3次下載
- 集成簇內(nèi)和簇間距離的加權(quán)k-means聚類方法 1次下載
- 針對高維稀疏數(shù)據(jù)的可重疊子空間K-Means聚類算法 13次下載
- 基于距離和密度的并行二分K-means算法 17次下載
- 一種改進的聚類聯(lián)合相似度推薦算法 10次下載
- 如何使用多維網(wǎng)格空間進行改進K-means聚類算法資料概述 1次下載
- 基于改進k-means算法的MANET異常檢測方法 0次下載
- 基于聚類集成技術(shù)的在線特征選擇 0次下載
- 基于改進K_means聚類的欠定盲分離算法_柴文標 0次下載
- 特征加權(quán)和優(yōu)化劃分的模糊C均值聚類算法 0次下載
- 混合細菌覓食和粒子群的k_means聚類算法 0次下載
- 基于最小生成樹的層次K_means聚類算法 5次下載
- K-means+聚類算法研究綜述
- 改進的k-means聚類算法在供電企業(yè)CRM中的應(yīng)用
- 一種增強的K-means聚類算法在入侵檢測中的應(yīng)用
- 基于K-means聚類算法的圖像分割 2258次閱讀
- 如何在 Python 中安裝和使用頂級聚類算法 613次閱讀
- 10種頂流聚類算法Python實現(xiàn)(附完整代碼) 1617次閱讀
- 基于距離的聚類算法K-means的設(shè)計實現(xiàn) 2348次閱讀
- 基本的k-means算法流程 1.9w次閱讀
- PLC常用基本環(huán)節(jié)梯形圖和詳細文字說明詳細資料概述 1w次閱讀
- K-Means算法的簡單介紹 4934次閱讀
- 人工智能機器學(xué)習之K近鄰算法(KNN) 2882次閱讀
- Python無監(jiān)督學(xué)習的幾種聚類算法包括K-Means聚類,分層聚類等詳細概述 3w次閱讀
- 一種基于MapReduce模型的并行化k-medoids聚類算法 5377次閱讀
- 基于密度DBSCAN的聚類算法 2.1w次閱讀
- k means聚類算法實例 1.5w次閱讀
- K-means的優(yōu)缺點及改進 3.2w次閱讀
- k-means算法原理解析 8362次閱讀
- 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進 9439次閱讀
下載排行
本周
- 1TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 2開關(guān)電源基礎(chǔ)知識
- 5.73 MB | 11次下載 | 免費
- 3嵌入式linux-聊天程序設(shè)計
- 0.60 MB | 3次下載 | 免費
- 4DIY動手組裝LED電子顯示屏
- 0.98 MB | 3次下載 | 免費
- 5基于FPGA的C8051F單片機開發(fā)板設(shè)計
- 0.70 MB | 2次下載 | 免費
- 651單片機窗簾控制器仿真程序
- 1.93 MB | 2次下載 | 免費
- 751單片機大棚環(huán)境控制器仿真程序
- 1.10 MB | 2次下載 | 免費
- 8基于51單片機的RGB調(diào)色燈程序仿真
- 0.86 MB | 2次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關(guān)電源設(shè)計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅(qū)動電路設(shè)計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191186次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多