

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、空間數據挖掘與可視化,信息工程大學地理空間信息學院李宏偉,2 空間數據挖掘研究,1 背景,3 實例:空間關聯規(guī)則挖掘,5 空間知識可視化,6 幾點思考,4 數據挖掘軟件,1 背景,By 李德仁,DIKW,2.1 空間分類挖掘,分類和預測是兩種數據分析形式,用于提取描述重要數據類的數據類型或預測未來的趨勢??臻g分類挖掘解決大量數據分類問題。,2 空間數據挖掘研究,空間分類挖掘方法,,決策樹方法:經典算法-Quinlan的ID3方法,
2、貝葉斯分類方法:樸素貝葉斯方法和貝葉 斯網絡方法,神經網絡方法:前向型、反饋型、隨機型、 自組織型,支持向量機方法:基于統計學習理論,適于 數據預處理、樣本化應用,空間分類挖掘方法(續(xù)),,K-最鄰近分類法,基于案例的推理分類法,遺傳算法和進化計算,粗糙集分類法,2.2 空間聚類挖掘,,統計學方法,機器學習方法,數據庫方法,模式識別方法,基于模型
3、的方法基于密度的方法基于劃分的方法基于層次的方法基于網格的方法混合方法,,方法分類,具體方法,聚類與分類不同,待劃分的類是未知的。聚類將數據對象分組為多個類或簇,使同一個簇中的對象之間相似度最高,不同簇中的對象相似度最低。,2.3 空間關聯規(guī)則挖掘聚類挖掘,基本研究內容,,確定性關聯規(guī)則挖掘量化關聯規(guī)則挖掘增量式關聯規(guī)則挖掘模糊關聯規(guī)則挖掘廣義關聯規(guī)則挖掘,經典算法:Apriori算法,Apriori算法改進,利用ha
4、sh表的DHP方法基于采樣的方法并行關聯規(guī)則挖掘的方法分布式關聯規(guī)則挖掘的方法多層次關聯規(guī)則挖掘的方法數值擴展的關聯規(guī)則挖掘的方法形象規(guī)則的發(fā)現方法關聯規(guī)則快速學習方法基于興趣度進行數值型關聯規(guī)則合并的方法采樣trie樹進行關聯規(guī)則挖掘利用概念格的關聯規(guī)則挖掘的方法……,,2.4 Internet和Web空間數據挖掘,Web挖掘,內容挖掘結構挖掘用法挖掘,基于機器學習技術的文本搜索引擎,基于協同的方法,基于內
5、容的方法,,,2.5 空間數據挖掘智能方法,神經計算、進化計算、免疫克隆計算、模糊計算與模糊推理……,3 實例:空間關聯規(guī)則挖掘,,發(fā)展階段,萌芽階段,,,,,,1993,2000,2006,2011,1993年,Agrawal等人提出頻繁項集挖掘的Apriori算法。 1995年,Koperski and Han 引入空間謂詞構造空間事務 表,給出空間關聯規(guī)則的定義及挖掘過程。,2
6、000年,Clementini 等考慮空間不確定性并對多層次空間關聯進行挖掘 2001年, Shekhar 等給出空間同位模式的一般挖掘算法2004-2005年,Yoo等通過減少連接計算以提升同位模式挖掘的效率,2006年,陳江平等提出了一種面向主題的基于多層次空間概念的關聯規(guī)則挖掘算法 2008年,張雪伍、蘇奮振等提出面向時空過程的關聯規(guī)則挖掘算法2009年,沙宗堯等人提出局部的空間關聯模式挖掘,2011年,Mohan 等基于
7、事件時序關系提出級聯模式的概念及挖掘算法2014年,鄧敏、石巖等基于聚類分割方法研究了太平洋氣候指數與我國極端降水事件的遙相關模式,3.1 空間關聯規(guī)則挖掘研究的發(fā)展,3.2 空間關聯規(guī)則分類,,,,,,,,,,,,,不同地理實體間空間依存、相互作用、因果或共生的模式,鄰近地理空間內頻繁出現的布爾型要素(或事件)子集,地理事件間遠距離的相互關聯模式,空間關聯規(guī)則,基于空間謂詞規(guī)則的關聯模式,空間同位模式,遙相關模式,城市分布,交通發(fā)
8、展,,,,,,3.3 當前研究重點,著眼于研究挖掘算法本身著眼于研究空間關聯規(guī)則的不確定性信息著眼于研究關聯挖掘的可視化著眼于研究弱空間關聯規(guī)則,3.4 空間關聯規(guī)則挖掘方法,,,,,,,,,將各個空間或非空間屬性作為一個圖層,對每個圖層上的數據點進行聚類,然后對聚類產生的空間緊湊區(qū)進行關聯規(guī)則挖掘。,利用空間疊加、緩沖區(qū)分析等方法發(fā)現挖掘目標之間的空間謂詞,將其組成空間事務數據庫,進行單層布爾型關聯規(guī)則挖掘。,通過用戶指定的鄰域
9、,遍歷所有可能的鄰域窗口,進而通過鄰域窗口代替空間事務,然后進行空間關聯規(guī)則的挖掘。,基于聚類的圖層覆蓋法,基于空間事務的挖掘方法,無空間事務挖掘法,3.5 空間關聯規(guī)則挖掘過程,以基于事務的空間關聯規(guī)則挖掘過程為例,web,3.6 空間關聯規(guī)則挖掘算法,挖掘算法:AprioriFP-GrowthEclat,3.7 存在問題,,,,,,在當今“數據爆炸”的大環(huán)境下,開發(fā)出效率高,負載數據量大的新算法是趨勢所在。,大多數空間關聯規(guī)則
10、挖掘工具都是基于事先定義好的參數進行黑箱式挖掘,挖掘過程中的交互性較差。,頻繁項的過濾環(huán)節(jié),沒有充分地運用空間數據的獨特性質,即沒有將“地理學思想應和空間數據有效結合”。,4、數據挖掘軟件,4.1 第一代數據挖掘軟件,特點支持一個或少數幾個數據挖掘算法 挖掘向量數據(vector-valued data) 數據一般一次性調進內存進行處理 典型的系統如Salford Systems公司早期的CART系統(www.salford-s
11、ystems.com) 缺陷如果數據足夠大,并且頻繁的變化,這就需要利用數據庫或者數據倉庫技術進行管理,第一代系統顯然不能滿足需求。,舉例:CBA,新加坡國立大學。基于關聯規(guī)則的分類算法,能從關系數據或者交易數據中挖掘關聯規(guī)則,使用關聯規(guī)則進行分類和預測,4.2 第二代數據挖掘軟件,特點與數據庫管理系統(DBMS)集成 支持數據庫和數據倉庫,和它們具有高性能的接口,具有高的可擴展性 能夠挖掘大數據集、以及更復雜的數據集 通過
12、支持數據挖掘模式(data mining schema)和數據挖掘查詢語言增加系統的靈活性 典型的系統如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統集成導致了第三代數據挖掘系統的開發(fā),舉例1:DBMiner,舉例2:SAS Enterprise Miner,4.3 第三代數據挖掘軟件,特點和預言模型系統之間能夠無縫的集成,使得由數據挖掘軟件產生的模型的變化能夠及時反映到預言模型系統中
13、 由數據挖掘軟件產生的預言模型能夠自動地被操作型系統吸收,從而與操作型系統中的預言模型相聯合提供決策支持的功能 能夠挖掘網絡環(huán)境下(Internet/Extranet)的分布式和高度異質的數據,并且能夠有效地和操作型系統集成 缺陷不能支持移動環(huán)境,舉例:SPSS Clementine,以PMML的格式提供與預言模型系統的接口,4.4第四代數據挖掘軟件,特點目前移動計算越發(fā)顯得重要,將數據挖掘和移動計算相結合是當前的一個研究領域
14、。 第四代軟件能夠挖掘嵌入式系統、移動系統、和普遍存在(ubiquitous)計算設備產生的各種類型的數據第四代數據挖掘原型或商業(yè)系統尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(University of Maryland Baltimore County)正在研制的CAREER數據挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目
15、的是開發(fā)挖掘分布式和異質數據(Ubiquitous設備)的第四代數據挖掘系統。,第一代系統與第二代相比因為不具有和數據管理系統之間有效的接口,所以在數據預處理方面有一定缺陷 第三、四代系統強調預測模型的使用和操作型環(huán)境的部署 第二代系統提供數據管理系統和數據挖掘系統之間的有效接口 第三代系統另外還提供數據挖掘系統和預言模型系統之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數據挖掘系統仍然會出現,第二代系統是商業(yè)軟件
16、的主流,部分第二代系統開發(fā)商開始研制相應的第三代數據挖掘系統,比如 IBM Intelligent Score Service。第四代數據挖掘原型或商業(yè)系統尚未見報導,,5.1 可視化分類,5 空間知識可視化,數據可視化,信息可視化,知識可視化,,,數據可視化:運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論和方法。,,,散點矩陣法投影矩陣法平行坐標法層次顯示技術動態(tài)顯示技術圖標表示
17、技術直方圖法……,信息可視化:利用計算機支撐的、交互的、對抽象數據的可視表示,來增強人們對這些抽象信息的認知。信息可視化將非空間數據的信息對象的特征值抽取、轉換、映射、高度抽象與整合,用圖形、圖像、動畫等方式表示信息對象內容特征和語義的過程。信息對象包括文本、圖像、視頻和語音等類型。,,一維信息可視化二維信息可視化三維信息可視化多維信息可視化層次信息可視化文檔信息可視化網絡信息可視化,知識可視化:是數據可視化和信息可視化
18、基礎上,將人類的知識,包括見解、經驗、態(tài)度、價值觀、意見、預測等加以表達,并幫助他人正確地重構、記憶和應用這些知識的過程。,三種可視化方式的比較,重點講空間知識可視化,普遍的幾何知識和面向對象的知識空間特征規(guī)則和區(qū)分規(guī)則空間分類規(guī)則和回歸規(guī)則空間聚類規(guī)則和關聯規(guī)則空間依賴規(guī)則和預測規(guī)則空間序列規(guī)則和空間例外,Concept map,Mind map,Thinking map,Cognitive map,Semantic net
19、work,知識結果可視化,知識狀態(tài)可視化,知識過程可視化,動態(tài)標量場 f : (x, y, t) ? R,Knowing what可視化,Knowing why可視化,Knowing how可視化,不同地區(qū)人們眼中的空間特征的地圖可視化表達,空間關聯規(guī)則的地圖可視化表達,空間關聯規(guī)則可視化表達,空間關聯規(guī)則可視化表達,時空演變規(guī)律的地圖可視化表達,VGI志愿者信息可視化,賽伯空間可視化,泛在空間中的POI 點分布特征知識可視化,,5.5
20、 可視化系列著作推薦,FastCoLabs邀請了幾位赫赫有名的可視化博客、博主來回答他們眼中最具標志性的可視化作品以及原因,受邀的三位分別是Eager Eyes的Robert Kosara,Visualising Data的Andy Kirk,以及National Public Radio的數據編輯Matt Stiles。,,5.6 十大標志性可視化作品,1)Wind Map是一個交互式實時風場可視化作品,數據每小時更新一次,用戶可以通
21、過雙擊放大到更精細的分辨率,看到非常美妙的風場?;豢梢姙榭梢娨恢倍际菙祿梢暬哪繕恕?2)GapMinder是另一個耳熟能詳的可視化作品,GapMinder用簡簡單單的動態(tài)散點圖就回答了世界發(fā)展的歷史、現狀和趨勢。,3)The Ebb and Flow Streamgraph是紐約時報在2008年發(fā)布的交互式電影票房可視化作品,作品以非常優(yōu)美的流的形式展現了1986年到2008年所有電影從上映到下檔的票房。,4)Paths to t
22、he White House是又一個交互式可視化,下圖展現了2012年美國大選的其它可能性。,5)Death and Taxes是一張展現美國聯邦超過500個部門、項目財政預算的信息圖,信息量涵蓋之廣讓人嘆為觀止。從04年至今,每年設計師Bachman都會發(fā)布最新的財政預算信息圖,2014年的信息圖由 Time Plots發(fā)布。,,6)同性戀權益在美國這樣的聯邦國家各州各不相同,為了清晰表達到底哪個州是同性戀的天堂或是地獄,衛(wèi)報做了Ga
23、y Rights, State by State的交互式可視化作品,該作品贏得了今年數據新聞大獎的數據驅動的敘述獎。作品以不同顏色代表不同權利如結婚、教育、就業(yè)等,單這一張圖其實已經足夠說明很多情況,東北部地區(qū)大多是同性戀天堂而東南部地區(qū)同性戀者生活艱難。,7) Bikini Chart其實只是一個條形圖,由奧巴馬團隊發(fā)布于2012年,用于對比就業(yè)率在奧巴馬上臺后和布什政府時期的改善情況。之所以被民間戲稱為比基尼圖,自然是因為
24、它的形狀,這也是這張圖流行的重要原因,誰不喜歡吐槽呢?因為表達的是公民失去工作的情況(記為負數),所以條形更多地被設計在基準坐標以下。從布 什政府上臺造成越來越多的失業(yè),到奧巴馬政府上臺失業(yè)率有所改善,這個形勢使得整個條形圖形成了一個類似于比基尼的形狀。,8)A Peek Into Netflix Queues也是來自于紐約時報的可視化作品(大品牌值得信賴),列出了NetFlex在2009年最受歡迎的電影電視劇,以及在各個城市的觀影情況
25、。一些電影電視在不同城市的接受度大相徑庭。但是對于為什么有些電影在一些城市更受歡迎,作品中并沒有給出進一步的分析解釋,還有待用戶自己發(fā)現。,,9)Why Is Her PayCheck Smaller? 這個作品表達了相同工作,男女薪水待遇不同。作品非常簡單,只是在職業(yè)的散點圖上增加了一些標準線,不同顏色代表不同行業(yè)。但是這些標準 線對于用戶閱讀可視化,吸收作品真正想傳達的意義起到了巨大的作用,讓用戶在視覺上不由自主地把對標準線一邊和另
26、一邊的進行對比。首先男女收入相當的標準線無疑是最重要的,看來果然還是男人待遇比較高啊。再下來別是女人薪水少10%,20%,30%的標準線,看來金融領域的女人分外受到歧視啊……,,10)How Common is Your Birthday?是一個簡單的用熱度表達美國最普遍的生日日期的信息圖,七八九十月出生是最普遍的,往回推的話就是圣誕前后一兩個月懷孕,非常合理。不知道我國是不是也會形成小長假、春節(jié)的類似于pattern呢?,,5.7 一
27、些可視化軟件,6 幾點思考,數據挖掘同樣需要知識的指導,不是一個盲目的過程,也不應簡單作為一個“黑箱”。數據爆炸到方法爆炸,例如當前的聚類方法有不下百種。過多的方法用戶在實際中如何選擇適當的方法亦變得十分困難。有必要分析方法間的共性,避免不必要的冗余。當前方法獲得的挖掘結果過多依賴于人為的參數設置、預先假設,對挖掘結果的有效性、可靠性的客觀評價依然是當前研究的一個瓶頸問題。空間數據異質性、多尺度特性依然需要得到進一步的重視。,大
28、數據有利于簡化模型設計 多源異構、海量、動態(tài)變化的時空數據對時空數據挖掘方法提出了新的挑戰(zhàn),也標志著時空數據挖掘研究已經進入了“大數據時代”! 豐富的數據為直接基于數據的建模提供了可能性,甚至有可能實現基于每個時空實體構建局部的實時、動態(tài)模型。,紐約某區(qū)GPS軌跡數據,倫敦Twitter活躍度,全球地表覆蓋監(jiān)測,大數據不是萬能的 大數據提供了海量的數據源,但是這些數據里面包含的數據價值密度相對較低,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVG的空間數據可視化.pdf
- 空間數據挖掘及其可視化系統若干關鍵技術研究.pdf
- 多變量空間數據場的高效可視化.pdf
- 基于PC集群礦山海量空間數據并行處理與可視化.pdf
- 基于WEBGIS的空間數據分析及其可視化研究.pdf
- 空間數據集可視化繪制的關鍵方法與技術研究.pdf
- 基于屬性關聯的多變量空間數據場可視化研究.pdf
- 32919.三維gis中海量空間數據可視化研究
- 三維地理空間數據的典型圖層可視化研究與實現.pdf
- 三維空間數據管理與可視化方法研究.pdf
- 數據挖掘與GIS集成實現空間數據挖掘系統.pdf
- 校園GIS空間數據挖掘與研究.pdf
- 定性空間推理與空間數據挖掘技術.pdf
- 三維不規(guī)則空間數據的可視化研究_22014.pdf
- 空間數據挖掘技術研究.pdf
- 可視化數據挖掘
- 56511.面向空間數據庫的空間數據挖掘應用研究
- 32026.海洋環(huán)境空間數據管理及網絡可視化系統設計與實現
- 空間數據挖掘分類算法研究.pdf
- GML空間數據挖掘技術研究.pdf
評論
0/150
提交評論