

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著互聯網技術的飛速發(fā)展和互聯網應用的不斷普及,互聯網資源成為當前規(guī)模最大、內容最豐富、使用最廣泛的信息來源。為了有效地從這些海量數據中檢索到需要的信息,搜索引擎已經成為向用戶提供快速資源定位的最好技術手段。然而,不斷增長的網頁規(guī)模和查詢請求使得搜索引擎面臨著巨大的性能挑戰(zhàn)。面對海量的網頁數據和巨大的查詢需求,如何高效地處理查詢請求成為搜索引擎領域中最重要的研究問題之一。在查詢性能上的任何提升都可以顯著地降低系統(tǒng)硬件資源的投入并提升用戶
2、的查詢體驗,從而為搜索引擎的良好運行提供堅實的基礎。因此,本文主要研究提高搜索引擎效率的方法,并重點從倒排索引壓縮和查詢兩方面技術結合的角度出發(fā)來解決制約搜索引擎系統(tǒng)性能的問題。本文的主要研究成果如下:
?。?)為了提升搜索引擎系統(tǒng)索引數據的壓縮性能,本文研究了典型的Simple9索引壓縮算法。針對Simple9壓縮算法中存在的填充模式間可壓縮整數個數的稀疏問題,本文提出了密集填充技術(Dense Padding)來使一個32位
3、機器字能夠壓縮更多的整數,從而提升Simple9索引壓縮算法的壓縮率。當某一填充模式中異常值的相對位置大于下一個填充模式的可壓縮整數個數時,我們通過在被壓縮整數序列末尾插入整數0來構造滿足本填充模式的可壓縮整數序列。在解壓過程中,我們設計巧妙的算法來去除額外的整數0。此外,針對Simple9中可壓縮數字序列個數較少的導致的位操作過多問題,本文提出了分組 Simple9壓縮技術(GroupSimple9)來降低壓縮和解壓縮過程中的數據讀取
4、、分支判斷、移位和查找映射表等位操作,從而提升Simple9壓縮算法的壓縮和解壓速度。實驗結果表明,本文提出的分組Simple9和密集Simple9(DenseSimple9)壓縮算法能夠在壓縮率、壓縮和解壓三方面上均有明顯的性能提升。
?。?)為了提升搜索引擎系統(tǒng)索引數據的查詢性能,本文研究了當前流行的MaxScore動態(tài)剪枝算法。由于當前MaxScore查詢算法是在必要表(Essential Lists)中進行選擇候選文檔,
5、非必要表(Non-essential Lists)的倒排項僅進行分數貢獻累加。MaxScore查詢算法對必要表的訪問是順序進行的,而僅僅對非必要表采用隨機訪問,這種情況下MaxScore查詢算法存在著嚴重的候選文檔失效問題。針對這一問題,本文首先實現了一種多層自索引結構(Hierarchical Self-index)來支持倒排鏈表的隨機訪問,然后提出對候選文檔最大可能分數進行雙向檢查,實現了必要表的快速跳躍訪問(Essential L
6、ists Skipping, ELS)。這樣實現必要表中候選文檔的預先檢測和隨機訪問,使得候選文檔的打分失效問題能夠盡早被發(fā)現,避免在將要失效的候選文檔上的一些無用的操作。實驗結果表明,本文提出的ELS-MaxScore查詢算法能夠大大提升top-k查詢性能,尤其在查詢長度小于4時能達到MaxScore近2倍的性能。
(3)通過之前的分析可以發(fā)現提升搜索引擎查詢性能的一個方法是,候選文檔的選擇應該主要集中在重要度較高的詞項對應
7、的倒排鏈表中。在分析WAND查詢算法問題和研究激進式MaxScore(Aggressive MaxScore)優(yōu)勢的基礎上,為了更好的利用詞項重要度這一重要特性,本文提出了最大重要度優(yōu)先(Largest Score First, LSF)查詢算法。LSF查詢算法使得具有較高重要度的查詢詞項所指向的倒排鏈表能夠優(yōu)先得到處理。分析表明,LSF查詢算法能夠解決當前(Document At A Time, DAAT)和(Term At A Ti
8、me, TAAT)兩種窮盡遍歷算法中存在的候選文檔隨機選擇和內存消耗問題。為了進一步支持高效的動態(tài)剪枝算法,本文利用 LSF查詢的對于詞項重要度考慮的優(yōu)勢,提出了兩種精確的動態(tài)剪枝算法:基于 LSF的去除查詢詞項技術(Term Omitting,LSF_TO)和基于LSF的文檔部分打分技術(Partial Scoring,LSF_PS)?;赥REC GOV2上的實驗結果表明,本文提出的兩種基于LSF索引遍歷的動態(tài)剪枝算法能夠達到比基于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 搜索引擎中查詢擴展的研究.pdf
- 搜索引擎中的查詢擴展方法研究.pdf
- 搜索引擎中索引剪枝的研究.pdf
- [學習]搜索引擎優(yōu)化與搜索引擎營銷
- 搜索引擎
- 傳統(tǒng)搜索引擎與智能搜索引擎比較研究.pdf
- 搜索引擎及搜索引擎優(yōu)化(seo)實驗
- 游戲搜索引擎 --搜索引擎demo系統(tǒng)中l(wèi)ucene索引的實現---畢業(yè)論文
- XML搜索引擎中索引技術的研究.pdf
- 游戲搜索引擎 --搜索引擎demo系統(tǒng)中l(wèi)ucene索引的實現---畢業(yè)論文
- 搜索引擎07011
- 全文搜索引擎
- 搜索引擎18307
- 搜索引擎06826
- 搜索引擎概述
- 搜索引擎1
- 搜索引擎分類
- 圖像搜索引擎
- 搜索引擎優(yōu)化
- 使用搜索引擎
評論
0/150
提交評論