資料介紹
一種適應短文本的相關測度及其應用:針對博客社區和BBS 論壇充斥Web 垃圾信息的問題,提出相關度向量空間模型cVSM,并以此作為評論的特征,采用支持向量
機分類算法自動識別垃圾評論。cVSM 包括一種適合短文本的相關測度,用于衡量評論和文章的語義相關程度。在中文博客測試集和中文
BBS 測試集上的實驗結果表明,相比純粹使用評論文本特征的方法,應用該模型時F1 至少提高6%。
關鍵詞:博客;垃圾評論;支持向量機;文本挖掘;相關測度
Relevancy Coefficient and Its Application Adapted to Short Texts
HE Hai-jiang
(Computer Center, Changsha University, Changsha 410003)
【Abstract】A relevancy coefficient vectort space model named cVSM is proposed to aim at Web spams which flood in blogosphere and forums.
The cVSM whose components are employed as features of comments and the support vector machine classification algorithms are used to
automatically identify comment spams. The relevancy coefficient included in the cVSM is presented, which is used to evaluate relevancy grade of
posts and comments. Chinese blog dataset and Chinese BBS dataset are tested. Experimental results show that compared with traditional method the
F1 has been improved at least 6% by this way.
【Key words】blog; comment spam; support vector machine; text mining; relevancy coefficient
機分類算法自動識別垃圾評論。cVSM 包括一種適合短文本的相關測度,用于衡量評論和文章的語義相關程度。在中文博客測試集和中文
BBS 測試集上的實驗結果表明,相比純粹使用評論文本特征的方法,應用該模型時F1 至少提高6%。
關鍵詞:博客;垃圾評論;支持向量機;文本挖掘;相關測度
Relevancy Coefficient and Its Application Adapted to Short Texts
HE Hai-jiang
(Computer Center, Changsha University, Changsha 410003)
【Abstract】A relevancy coefficient vectort space model named cVSM is proposed to aim at Web spams which flood in blogosphere and forums.
The cVSM whose components are employed as features of comments and the support vector machine classification algorithms are used to
automatically identify comment spams. The relevancy coefficient included in the cVSM is presented, which is used to evaluate relevancy grade of
posts and comments. Chinese blog dataset and Chinese BBS dataset are tested. Experimental results show that compared with traditional method the
F1 has been improved at least 6% by this way.
【Key words】blog; comment spam; support vector machine; text mining; relevancy coefficient
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 面向搜索的微博短文本語義建模方法綜述 3次下載
- 面向短文本的中文真詞錯誤檢測與修復 6次下載
- 面向短文本的中文真詞錯誤檢測與修復 2次下載
- 基于BERT+Bo-LSTM+Attention的病歷短文分類模型 13次下載
- 一種基于BERT模型的社交電商文本分類算法 8次下載
- 基于BP神經網絡分類器的垃圾文本過濾模型 43次下載
- 一種針對中英混合文本的多維度多情感分析方法 16次下載
- 一種基于神經網絡的短文本分類模型 10次下載
- 結合BERT模型的中文文本分類算法 6次下載
- 基于加權核非負矩陣分解的短文本聚類算法的資料說明 11次下載
- 中文短文本聚合模型研究 0次下載
- 基于短文本的突發事件過程展示 0次下載
- 融合詞語類別特征和語義的短文本分類方法 0次下載
- 一種多輸入多輸出系統中有限反饋預編碼的自適應跟蹤測度
- 一種基于粒子濾波的自適應相關跟蹤算法
- 基于文本到圖像模型的可控文本到視頻生成 983次閱讀
- OpenAI發布根據文字生成圖像的人工智能系統 1331次閱讀
- OpenAl提出了一種適用于文本、圖像和語音的稀疏Transformer 3315次閱讀
- 如何使用TensorFlow Hub文本模塊構建一個模型,以根據相關描述預測電影類型 3221次閱讀
- 如何使用EAST文本檢測器在自然場景下檢測文本 1.1w次閱讀
- 一種用于從文本簡歷中挖掘相關信息的框架 2796次閱讀
- 【新專利介紹】一種精確的智能遠傳水表及其工作系統 933次閱讀
- 【新專利介紹】一種智能電表付費控制系統及其控制方法 1594次閱讀
- 【新專利介紹】一種物聯網智能水表及其管理系統 2616次閱讀
- 【新專利介紹】一種無磁感應水表及其使用方法 3292次閱讀
- 【新專利介紹】一種水表校表系統及其校表方法 2870次閱讀
- 測試鏈路自適應的一種新方法_IP網絡測試技術 1637次閱讀
- 智能天線技術研究及其相關介紹 827次閱讀
- 一種創新性DPD線性化電路特有的自適應算法 2484次閱讀
- 一種新型帶寬自適應全數字鎖相環的設計方案 3016次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 93次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多