

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著科學技術的發(fā)展,目前Web成為了世界上最大的數據源。這些信息在頁面上的分布廣且無固定結構,因此面對龐大復雜的信息,人們獲得有用的知識顯得越來越困難,同時也難以滿足用戶對感興趣的知識的渴求。在這種背景下,推薦系統(tǒng)應運而生。它根據用戶的愛好或者瀏覽信息的相關性給用戶推薦對象。
本文主要研究Web文本挖掘技術在網站文本推薦中的應用。首先根據前人研究成果提出一種基于該技術的模型,然后按照該模型的流程依次剖析Web頁面主要內容的
2、提取、Web文本的聚類和一種改進的推薦算法。推薦算法作為模型核心,內容的提取作為文本聚類算法和改進推薦算法的輸入,文本聚類則作為推薦算法中的預處理步驟。本文研究內容如下:
1,基于經典推薦模型,結合Web文本的特點,設計出一個針對網站中文本的推薦模型。
2,研究了Web頁面結構的解析及如何從結構化樹中查找到本頁面的主要內容。推薦內容的總學習數據庫可以通過網絡爬蟲獲取,同時利用深度優(yōu)先算法構建DOM(Docum
3、entObjectModel)樹。利用剪枝技術剔除無用節(jié)點,最后提取出頁面主要內容。
3,Web文本的聚類研究。針對歐氏距離等常用距離的不足,提出近似推土機距離(approximateEMD)。利用近似EMD(EarthMover'sDistance)距離代替常規(guī)距離,使得實體間的度量更加精確。實驗采用中國科學院計算技術研究所的文本數據,基于歐氏距離的DBSCAN算法聚類的平均正確率是78.9%,基于EMD的改進算法的平均
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- WEB日志挖掘在網站推薦服務中的應用研究.pdf
- Web數據挖掘技術在網絡教育論壇中的應用研究.pdf
- WEB挖掘技術在網絡警情監(jiān)控中的應用研究.pdf
- 文本挖掘在網購用戶評論中的應用研究.pdf
- Web數據挖掘在網上書店個性化推薦系統(tǒng)中的應用研究.pdf
- Web日志挖掘在網站個性化推薦中的應用.pdf
- 色彩在網頁設計中的應用研究.pdf
- 基于xml的web文本挖掘應用研究
- 基于Web文本挖掘的SVM網頁文本分類研究.pdf
- 基于XML的Web文本挖掘應用研究.pdf
- 聚類分析在Web文本挖掘中的應用研究.pdf
- 數據挖掘技術在網通CRM中的應用研究.pdf
- Web數據挖掘及其在網絡新聞文本數據中的應用.pdf
- Web挖掘及其在網絡搜索引擎中的應用研究.pdf
- Web日志挖掘技術及其在網絡教學中的應用.pdf
- Web數據挖掘在網站優(yōu)化中的應用.pdf
- Web挖掘技術在Web預取中的應用研究.pdf
- 視覺語言在網頁設計中的應用研究.pdf
- Web日志挖掘在網站個性化服務中的應用研究.pdf
- 基于Web數據挖掘的網頁優(yōu)化設計應用研究.pdf
評論
0/150
提交評論