

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫的創(chuàng)建與應用是企業(yè)信息化發(fā)展的必由之路。近十年來,為滿足數(shù)據(jù)的集成、管理和決策支持的目的,在世界各地出現(xiàn)了大量的、不同規(guī)模的數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫數(shù)據(jù)源的類型也越來越多樣化。尤其是Web數(shù)據(jù)源,文本數(shù)據(jù)源等實時數(shù)據(jù)源的出現(xiàn),給數(shù)據(jù)倉庫的構(gòu)建以及ETL提出新的挑戰(zhàn)。數(shù)據(jù)倉庫技術(shù)面臨若干緊迫問題:如何構(gòu)建一個完善的數(shù)據(jù)倉庫體系以適應多種類型的數(shù)據(jù)源;如何高效實現(xiàn)數(shù)據(jù)倉庫體系中各個層次的ETL過程;如何保證ETL的實時性以及如何改進數(shù)
2、據(jù)倉庫的訪問控制模型等。
本文針對多類型數(shù)據(jù)源的特點,首先分析現(xiàn)有數(shù)據(jù)倉庫的需求和數(shù)據(jù)源的種類。本文以國家海洋數(shù)據(jù)倉庫系統(tǒng)為例,利用局部ETL和全局ETL兩段式ETL過程;演化面向多類型數(shù)據(jù)源的數(shù)據(jù)倉庫體系結(jié)構(gòu),包括抽取層、歸檔層、匯總層、倉庫層和應用層,并且詳細論證了每一層的設(shè)計思路和作用?;诖耍疚难芯苛嗣恳粚由婕暗娜舾申P(guān)鍵問題。
抽取層和歸檔層主要完成數(shù)據(jù)的抽取和歸檔工作,該層的ETL軟件實現(xiàn)從數(shù)據(jù)源
3、中抽取數(shù)據(jù)并裝載到歸檔庫中,因此稱為局部ETL。本文重點研究了無結(jié)構(gòu)的Web頁面,半結(jié)構(gòu)化文本和結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)庫這三種數(shù)據(jù)源的局部ETL技術(shù)。首先,針對無結(jié)構(gòu)的Web頁面數(shù)據(jù)源的局部ETL問題,提出一種較傳統(tǒng)方式更為高效的Web頁面采集存儲方法。把頁面按照其布局特點分為若干個區(qū)域,把這些區(qū)域作為變化檢測、存儲和處理單元。
其次,針對半結(jié)構(gòu)化文本數(shù)據(jù)源的局部ETL問題,重點研究了半結(jié)構(gòu)化非自描述型科學文本數(shù)據(jù),提出了一種
4、文本數(shù)據(jù)關(guān)系化方法,實現(xiàn)從文本模型到對象模型進而到關(guān)系模型的轉(zhuǎn)換。此外如何保障關(guān)系化的效率和安全性也是本研究的重點。
再次,針對結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫數(shù)據(jù)源的局部ETL問題,本文分析和總結(jié)了影響ETL引擎性能的主要因素,提出了一種基于分布式數(shù)據(jù)庫的ETL新方法,還提出了一種元數(shù)據(jù)驅(qū)動的ETL方法來克服現(xiàn)有ETL工具和手工編碼方式的不足?;贓-LT方法,本文利用SQL語言實現(xiàn)了元數(shù)據(jù)驅(qū)動的ETL工具并詳細測試了其執(zhí)行性能。
5、> 匯總層和倉庫層完成從各個數(shù)據(jù)源的歸檔區(qū)到數(shù)據(jù)倉庫的數(shù)據(jù)集成工作,該ETL過程稱為全局ETL。由于數(shù)據(jù)倉庫的實時性要求,多數(shù)據(jù)源全局ETL不僅要面臨數(shù)據(jù)集成問題,還要保證ETL的實時或是近實時調(diào)度。本文提出了按照集成的自身規(guī)則觸發(fā)ETL過程,并分配資源,以解決全局ETL的調(diào)度執(zhí)行,以及它和其它數(shù)據(jù)倉庫應用之間爭奪數(shù)據(jù)倉庫資源的問題。由于實時ETL執(zhí)行過程中獨占數(shù)據(jù)倉庫資源,應用端一時無法連接數(shù)據(jù)倉庫而處于一種離線狀態(tài)。本文設(shè)計了
6、一個支持離線運行的客戶端框架,使得短時離線的過程對客戶端用戶透明。該離線客戶端框架屬于環(huán)境可感知軟件框架,具有一定的通用性。
數(shù)據(jù)倉庫應用層主要包含查詢檢索,OLAP,數(shù)據(jù)挖掘等應用,還包括各應用的訪問控制系統(tǒng)。數(shù)據(jù)倉庫應用乃至數(shù)據(jù)倉庫自身都需要一種良好的訪問控制機制。本文提出兩種訪問控制模型?;诮巧蜕舷挛牡脑L問控制模型是經(jīng)典的基于角色的訪問控制模型的擴展,適用于數(shù)據(jù)倉庫應用以及任何面向最終用戶的軟件系統(tǒng)的訪問控制?;?/p>
7、于意圖的訪問控制模型適用于數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)倉庫系統(tǒng)等面向應用軟件的系統(tǒng)的訪問控制。本研究還在后者的基礎(chǔ)上進一步研究了意圖間的層次關(guān)系挖掘算法。
總之,本文提出了一種面向多類型數(shù)據(jù)源的數(shù)據(jù)倉庫體系結(jié)構(gòu)和層次劃分,基于該體系結(jié)構(gòu)對各層次的關(guān)鍵問題進行分析和研究。所提出的所有模型和算法均給出實現(xiàn)方法或運用在實際項目中,理論分析和實驗證明了所提出方法和技術(shù)的可行性和有效性。整個研究內(nèi)容圍繞著數(shù)據(jù)倉庫和ETL過程的設(shè)計和實施,保證了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向?qū)崟r數(shù)據(jù)倉庫的ETL研究.pdf
- 構(gòu)建實時電力數(shù)據(jù)倉庫的關(guān)鍵技術(shù)研究.pdf
- 構(gòu)建數(shù)據(jù)倉庫的ETL系統(tǒng)研究.pdf
- 基于Hadoop平臺構(gòu)建數(shù)據(jù)倉庫關(guān)鍵技術(shù)的研究.pdf
- 面向醫(yī)保數(shù)據(jù)倉庫的ETL技術(shù)研究與應用.pdf
- 數(shù)據(jù)倉庫ETL研究及實現(xiàn).pdf
- 基于XML數(shù)據(jù)源的ETL技術(shù)的研究.pdf
- 數(shù)據(jù)倉庫數(shù)據(jù)源質(zhì)量保證的方法和步驟.pdf
- 面向領(lǐng)域的數(shù)據(jù)倉庫構(gòu)建技術(shù)研究及應用.pdf
- 面向醫(yī)學領(lǐng)域數(shù)據(jù)倉庫的ETL過程研究與實現(xiàn).pdf
- 面向數(shù)據(jù)倉庫和數(shù)據(jù)整合的ETL系統(tǒng)的設(shè)計和實現(xiàn).pdf
- 面向商業(yè)銀行數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量管理關(guān)鍵技術(shù)研究.pdf
- 面向網(wǎng)絡輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究.pdf
- 數(shù)據(jù)倉庫系統(tǒng)中若干關(guān)鍵技術(shù)的研究.pdf
- 分布式數(shù)據(jù)倉庫中ETL技術(shù)的研究.pdf
- 面向Web文本數(shù)據(jù)倉庫的預處理關(guān)鍵技術(shù)研究.pdf
- 面向社區(qū)服務的數(shù)據(jù)倉庫關(guān)鍵技術(shù)研究與實現(xiàn).pdf
- JL數(shù)據(jù)倉庫系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究.pdf
- OWB技術(shù)實現(xiàn)數(shù)據(jù)倉庫ETL的研究與應用.pdf
- 數(shù)據(jù)倉庫中ETL建模問題的研究.pdf
評論
0/150
提交評論