基于互信息的短文本分類技術(shù).pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、處于信息大爆炸時代的現(xiàn)代信息社會,大量的短文本正以迅猛的勢頭闖進了人們的生活中。短文本的形式有很多,比如,email,微博,手機短信,新聞標題摘要,書評及影評,產(chǎn)品介紹及評語,企業(yè)中的業(yè)務(wù)流通信息等等。由于這些短文本呈現(xiàn)爆炸式增長,并且含有的信息量非常大,而且傳播迅速影響廣泛,已經(jīng)越來越引發(fā)研究人員關(guān)注。如何準確有效的從中獲取所需的資料和信息,從而更好的輔助人們的工作和學習,文本分類技術(shù)在其中發(fā)揮著舉足輕重的作用。
  所謂的短文

2、本,指的是長度比較短,字符數(shù)通常在百個字符以內(nèi)的文本,內(nèi)容簡潔精練概括。文本相似度計算是文本處理的一項基礎(chǔ)而又重要的工作,它是實現(xiàn)文本分類的關(guān)鍵技術(shù)。目前有很多文本相似度的度量方法,比如TF-IDF權(quán)值方法,基于語義理解的相似度計算,基于隱形語義標引LSI的相似度計算等等。但是這些技術(shù)沒有將統(tǒng)計信息和語義信息合理的相結(jié)合并進行有效的分析,因此,缺乏對短文本相似度度量的有效支持。傳統(tǒng)文本分類處理技術(shù)主要針對的是普通文本即長文本,相應(yīng)的技術(shù)

3、也有很多,比如,k-NN(k最近鄰方法),樸素貝葉斯網(wǎng)絡(luò),最大熵方法和SVM(支持向量機)等。這些技術(shù)性能穩(wěn)定,效率高,對于長文本分類十分有效。但短文本具有一些獨有的特征,比如,長度短,包含信息比較單一,文本特征向量稀疏等。所以,傳統(tǒng)的文本處理方法不能滿足對短文本處理的要求,短文本對文本處理提出了更高的要求和挑戰(zhàn)。
  基于上述的分析,本文提出一種基于互信息的文本相似度度量函數(shù)。它不但考慮了文本間的相互語義關(guān)系,而且還通過概率統(tǒng)計

4、保證了相似度的準確性。它將文本間的語義關(guān)系通過統(tǒng)計信息的計算得以表示,從而實現(xiàn)文本間的語義關(guān)系的衡量。對于面向短文本分類來說,同其它分類技術(shù)相比較,VSM的適應(yīng)性最好,但它仍然不能有效的支持短文本分類的要求。通過對短文本的分析,發(fā)現(xiàn)主題詞往往對短文本的分類起著關(guān)鍵作用,故而本文考慮引入主題詞來輔助VSM進行分類。進而,通過對訓練集進行統(tǒng)計分析,抽取出部分主題詞和類別的二元映射關(guān)系。利用這種映射關(guān)系輔助VSM進行分類,能提高短文本分類的準

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論