面向主題的輿情本體概念及關系的抽取研究.pdf_第1頁
已閱讀1頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著網(wǎng)絡的快速發(fā)展,輿情信息會以某個或者某些主題形式為中心不斷地傳播,但傳播重點也在不斷地更改。快速有效地發(fā)現(xiàn)相關遷移的焦點內容,有助于相關部門更好的掌握并分析輿情導向,并且將這些輿情信息按照某種形式存儲起來,形成輿情本體,可以很好地支持后期的輿情分析。
  目前主題識別多數(shù)以新聞網(wǎng)頁信息作為語料庫,因為新聞語料格式規(guī)范,有具體的人物、事件發(fā)生時間、地點、發(fā)生何事這些要素。而輿情信息以各種形式如博客、貼吧等快速地傳播著。在基于輿情

2、信息的本體構建時,多數(shù)方法采用領域相關度和一致度或者它們的改進方法進行領域本體概念的提取,第一,該方法提取的本體概念具有極強的領域性,且實驗語料庫都是靜態(tài)的、規(guī)范的。而輿情語料信息是跨領域的、時刻變化的,顯然該方法在輿情本體構建時有一定的局限性。第二,將基于主題的輿情語料作為訓練語料時,只抽取與主題相關的高頻詞,過濾低頻詞。某一概念最終只能屬于一個主題。但輿情語料是跨領域知識,一個詞可能會出現(xiàn)在多個主題中。
  本文針對以上問題,

3、采用信息爬取技術收集熱點輿情文本信息,基于時間屬性結合特征詞的一些特點進行文檔特征詞抽取,建立空間向量,有效地發(fā)現(xiàn)內容焦點發(fā)生遷移但屬于同一主題的網(wǎng)絡文本,并將其歸類。對識別后的主題文本提取名詞性詞匯或者短語作為候選概念集;根據(jù)語義相似度方法評估候選概念間的相關度,并對各概念的權值進行排序;結合詞頻變化的方法抽取與主題相關的核心概念。最后根據(jù)概念間已有的相關度,直接判斷概念間關系。若概念間有直接關聯(lián),則這對概念具有一定的關系,結合不同方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論