

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于P2P技術下的信息檢索研究基于基于P2P技術下的信息檢索研究技術下的信息檢索研究摘要:21世紀是信息化的世紀。社會信息化程度越高人們對信息的依賴性就越大。信息是一切思想、事實的富有想象力的表征它們以各種形式進行記錄和傳播。信息檢索是涵蓋了文獻檢索、情報檢索和知識檢索的新興技術。也正是在新科技環(huán)境下,P2P技術發(fā)展勢頭強勁,在給萬千網民帶來便利的同時,正促使互連網的運營方式發(fā)生靜悄悄的演變,形成新的格局。P2P信息檢索將會是通往未來格
2、局的關鍵技術。正如以Google為首的Web信息搜索引擎對人們沖浪方式帶來深刻變化一樣,P2P信息檢索也將會給未來的互聯(lián)網帶來一場革命。本文從基于P2P搜索的發(fā)展動機和原理入手,概述了當前主流的P2P搜索的研究熱點和未來幾年的發(fā)展趨勢,以及我們圍繞P2P信息檢索所作的研究工作。關鍵詞:對等網絡P2P信息檢索向量空間模型潛在語義索引1、P2P技術概述對等網絡(peertopeer,P2P)技術并不是一種新興的技術,20世紀70年代中期,源
3、于局域網的文件共享,P2P技術就開始流行起來了。目前大家所關注的P2P技術,是原有技術的新應用模式。下面對P2P技術進行簡單的介紹。1.1P2P定義P2P是PeertoPeer(對等網絡,對等計算)的簡稱,中文譯名為對等互聯(lián)或者點對點技術。在P2P網絡中各個節(jié)點被稱為peer(對等體)。P2P是一種網絡模型,在這種網絡中所有的節(jié)點是對等的(稱為對等點),各節(jié)點無主從之分,各節(jié)點具有相同的責任與能力并協(xié)同完成任務。對等點之間通過直接互連共
4、享信息資源、處理器資源、存儲資源甚至高速緩存資源等,無需依賴集中式服務器或資源就可完成。業(yè)界對于P2P的定義有多種,典型的是Intel公司和IBM公司對P2P的定義。Intel將P2P定義為“通過系統(tǒng)間的直接交換達成計算機資源與信息共享系統(tǒng)”,這些資源與服務包括信息交換、處理器時鐘、緩存和磁盤空間等。IBM將P2P定義為:“P2P系統(tǒng)由若干互聯(lián)協(xié)作的計算機構成,且至少具有如下特性:系統(tǒng)儲存于邊緣化(非中央式服務器)設備的主動協(xié)作,每個成
5、員直接從其他成員而不是從服務器的參與中受益;系統(tǒng)中的成員同時扮演服務器與客戶端的角色;系統(tǒng)應用的用戶能夠意識到彼此的存在,構成一個虛擬的或實際的群體”??傊琍2P技術就是在不同用戶之間,不通過中繼設備直接交換數據和服務的技術。P2P網絡中任意節(jié)點既可以作為服務器為其它節(jié)點提供數據和服務,又可以作為客戶機享用其它節(jié)點提供的數據和服務。隨著P2P的飛速發(fā)展,因特網的存儲模式將由目前的“內容位于中心”模式轉變?yōu)椤皟热菸挥谶吘墶蹦J健?.2P
6、2P技術特點P2P以其獨特的技術特點,成為當今文件共享的理想平臺。P2P的技術特點主要體現在以下幾個方面:(l)分散化:網絡中的資源和服務分散在所有節(jié)點上,通過各個節(jié)點間的合作,直接在節(jié)點之間完成內容的傳輸和服務的實現,避免了中心存儲和內容交換可能存在的瓶頸。(2)可擴展性:在P2P網絡中,節(jié)點在獲取資源的同時也為其它節(jié)點提供服務。(3)健壯性:P2P有很強的自適應性,天生具有耐攻擊、高容錯的優(yōu)點。(4)高性能價格比:隨著硬件技術的發(fā)展
7、,個人計算機的計算和存儲能力以及網絡帶寬等性能依照摩爾定理高速增長。采用P2P架構可以有效地利用互聯(lián)網中散布的大量普通結點,將內容交換、計算任務或存儲資料分布到所有結點上。2、信息檢索概述2.1、信息檢索的含義對于信息檢索,主要存在時間性通訊、信息處理和文獻查找三種角度的認識:莫爾斯基于P2P技術下的信息檢索研究2.3.2向量空間模型向量空間模型(VectSpaceModel,VSM)克服了使用布爾模型中二元權值的缺點,采用非二元權值來
8、表示特征項在文本和用戶查詢中的權重,提出了允許部分匹配的模型結構。文本之間或者文本用戶查詢之間的(內容)相關程度(DegreeofRelevance)通常用它們之間的相似度來度量。當文本和查詢均被表示為向量空間模型時,可以借助于向量之間的某種距離來表示二者之間的相似度,常用向量之間的內積進行計算,相似度越大,說明兩個文本或文本和用戶查詢之間相關度越大。因此,可以根據相似度進行排序[4]。62.3.3概率模型概率模型(Probabilis
9、ticModel)是為了解決檢索中存在的一些不確定性而發(fā)展起來的,以數學理論中的概率論為原理的一種檢索模型。在此模型中,文本和用戶查詢的表示與布爾模型相同。同時,根據用戶反饋,將文本分成相關的和無關的兩類,然后根據每個特征變量(詞)在相關文本集合和無關文本集合的分布情況來計算它們的相關概率,并將它表示成幾率。概率模型的優(yōu)勢在于有很多形式,采用嚴格的數學理論為依據,能夠按照相關度概率來對檢索結果進行排序。它的檢索效率要明顯優(yōu)于布爾模型[5
10、]。2.4信息檢索技術廣義地講,信息檢索包含信息儲存和信息查找兩個過程。信息儲存是對文獻進行收集、標引及著錄,并加以有序化編排,編制信息檢索工具的過程;信息查找是從大量的信息中查找出用戶所需的特定信息的過程。實施檢索的主要方法就是利用各種檢索工具。狹義地講,信息檢索僅僅是指信息查找,即從信息集合中找出所需信息的過程。2.4.1信息檢索技術的發(fā)展(1)手工信息檢索手工信息檢索發(fā)展于19世紀末。專業(yè)化的信息檢索產生于參考咨詢工作。1876年
11、召開的美國圖書館協(xié)會第一屆大會上提出了正規(guī)的參考咨詢工作概念。這個階段的信息檢索手段是書本式和卡片式,包括檢索型和資料型的工具書等。至今這些檢索工具雖然有的還在發(fā)揮作用,如書本式檢索工具,但隨著電子資源的普及,其作用已逐漸削弱[6]。(2)機械信息檢索機械信息檢索的發(fā)展期是20世紀40~50年代,生命周期很短暫,是手工檢索向計算機信息檢索的過渡階段。這一階段的主要檢索手段包括穿孔卡片和縮微制品檢索。(3)計算機信息檢索計算機信息檢索起源
12、于20世紀50年代初。1954年美國海軍兵器中心圖書館利用IBM701機開發(fā)計算機信息檢索系統(tǒng),它標志著計算機信息檢索階段的開始。計算機信息檢索可分為四個發(fā)展階段:脫機檢索、聯(lián)機檢索、光盤檢索、網絡檢索。網絡信息檢索是由網絡站點、網頁瀏覽器和搜索引擎以及網絡支撐組成的檢索系統(tǒng),其中的核心部分不是眾多站點,而是網絡瀏覽器和具有收集、檢索功能的搜索引擎。網絡信息檢索開始于20世紀90年代初。1991年思維機等公司、明尼蘇達大學、歐洲高能粒子
13、協(xié)會分別推出了因特網上的檢索工具WAIS、GOPHER和WWW。目前,網絡瀏覽器WWW因其集文本、圖像、聲音等多媒體信息于一體的巨大優(yōu)點,已占信息服務的主導地位,基于Web的搜索引擎已成為最重要的信息檢索工具。著名的、且經典的有Yahoo等搜索引擎,Google是目前世界上最大的搜索引擎。2.4.2信息檢索方法根據DavidLewis和KarenSparkJones的觀點,目前的知識管理結構中,信息檢索可以分為以下三個領域[7]:數據檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- P2P信息檢索的研究.pdf
- 基于P2P的生物信息檢索.pdf
- P2P系統(tǒng)中基于資源特征的信息檢索技術.pdf
- 基于路由信息表的P2P信息檢索機制研究.pdf
- P2P環(huán)境下基于內容的圖像檢索技術研究.pdf
- 基于興趣度的P2P信息檢索機制研究.pdf
- 基于社區(qū)的P2P信息檢索系統(tǒng)研究.pdf
- P2P下基于“科研知識本體”的信息檢索的研究與實現.pdf
- P2P系統(tǒng)中信息檢索關鍵技術的研究.pdf
- 基于P2P的信息共享技術的研究.pdf
- 基于非結構化的P2P信息檢索關鍵技術研究.pdf
- P2P下基于“科研知識本體”的信息檢索的Top-k技術的研究與實現.pdf
- 基于語義的p2p信息檢索雙層框架的構建與實現
- 基于P2P匿名系統(tǒng)下的信息隱藏技術研究.pdf
- 基于P2P技術的ITS信息采集平臺研究.pdf
- 基于P2P的網絡戲曲音樂檢索技術的研究與實現.pdf
- P2P環(huán)境下基于局部信息的信任模型研究.pdf
- 基于語義的P2P信息檢索雙層框架的構建與實現.pdf
- P2P系統(tǒng)中的信息檢索理論及應用研究.pdf
- 基于小世界理論的P2P文本檢索研究.pdf
評論
0/150
提交評論