基于句子的網(wǎng)頁鑒別與實體關系抽取問題研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、網(wǎng)頁是傳遞信息的重要載體,以網(wǎng)頁作為研究對象是現(xiàn)今信息檢索與信息抽取研究的必然趨勢。鑒于句子既是傳遞信息的基本單位,又是表達完整意思的語言單位,本文以句子為出發(fā)點對網(wǎng)頁鑒別與實體關系抽取問題進行研究。具體內容如下。
  首先,定性分析基于句子網(wǎng)頁鑒別的難易程度。網(wǎng)頁鑒別是以網(wǎng)頁中是否含有人們給定的句子為依據(jù)來鑒別網(wǎng)頁內容。句子的各種變化形式可以表達相同含義的特點,給網(wǎng)頁鑒別帶來了困難。為了解決該問題,先根據(jù)句子的不同變化方式,定義

2、句子與網(wǎng)頁之間的五種關系:屬于關系、同義詞替換關系、簡單語序變換關系、復雜語序變換關系和推導變換關系。再討論每一種關系的識別問題,證明:識別句子與網(wǎng)頁的屬于關系是可判定問題并且是P問題;識別同義詞替換關系是不可判定問題;識別簡單語序變換關系是不可判定問題;識別復雜語序變換關系是不可識別問題;識別推導變換關系是不可識別問題。上述結論勾畫出了網(wǎng)頁鑒別研究難易程度的譜系。
  其次,給出網(wǎng)頁鑒別算法。針對網(wǎng)頁鑒別中,漢語句子與網(wǎng)頁之間每

3、一種關系的識別,分別給出不同的識別算法。對于屬于關系,通過Karp-Rabin Hash函數(shù)把句子表示成指紋,給出基于指紋的識別算法。對于同義詞替換關系,利用現(xiàn)有的詞義消歧技術,給出基于無指導詞義分析的識別算法。對于簡單語序變換關系,給出基于無指導句法分析和詞語共現(xiàn)的兩種識別算法,并比較了它們的識別性能。對于復雜語序變換關系,針對“被”、“把”字句,以及增加修飾成分而產生的新句子的識別,給出基于無指導句法分析的特殊形式識別算法;對于推導

4、變換關系,針對由詞的上下位關系而產生的推導變換形式的識別,給出基于詞義層次樹的識別算法。同時,對每一種算法的識別性能進行了實驗分析與驗證。
  然后,研究基于句子的實體關系抽取問題。該問題是在網(wǎng)頁中尋找一個句子,且句子中存在滿足指定關系的兩個實體,并將這兩個實體抽取出來。實體表現(xiàn)形式的多樣性、隱式實體關系的存在,以及句子的各種變化可以表達相同含義的特點,給實體關系的抽取帶來了困難。為了研究該問題,先定性分析問題的難易程度,證明其為

5、一個不可判定問題,再提出基于一致性明確表述的抽取算法。該算法為了提高關系抽取的準確率,引入兩個假設條件,并以此為基礎,通過詞語匹配的方式判斷網(wǎng)頁句子中是否存在滿足指定關系的兩個實體。同時,通過理論分析和實驗驗證抽取算法是有效的。
  最后,研究實體關系的閉包求解問題。該問題是在基于句子實體關系抽取結果的基礎上,研究如何利用已經抽取出的實體關系,推導出隱含在關系中的其它實體序偶。為了研究該問題,先定性分析問題的難易程度,證明它是一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論