

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、聚類分析,聚類分析是研究(樣品或指標)分類問題的一種多元統(tǒng)計方法。類是指相似元素的集合。分類:1、系統(tǒng)聚類法------(分層聚類)系統(tǒng)聚類法是應用最廣泛的一種 (Hierarchical Cluster過程) 1)、 聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為 一類。 2)、 分層聚類的方法可以用于樣本聚
2、類(Q)型,也可以用于變量聚類 (R型)。2、非系統(tǒng)聚類法-----(快速聚類法----K-均值聚類法)(K-means Cluster)3、兩步聚類法-----一種探索性的聚類方法(TwoStep Cluster),K-均值聚類分析K-means Cluster,又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點: 是占內(nèi)存少、計算量小、處理速度快,特別適合大
3、樣本的聚類分析。缺點: 應用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對觀測量(樣本)聚類,而不能對變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。,基本原理具體做法1、按照指定的分類數(shù)目n,按某種方法選擇某些觀測量,設為{Z1,Z2,…Zn},作為初始聚心。2、計算每個觀測量到各個聚心的歐氏距離。即 按就近原則將每個觀測量選入一個類中,然后計算
4、各個類的中心位置,即均值,作為新的聚心。3、使用計算出來的新聚心重新進行分類,分類完畢后繼續(xù)計算各類的中心位置,作為新的聚心,如此反復操作,直到兩次迭代計算的聚心之間距離的最大改變量小于初始聚類心間最小距離的倍數(shù)時,或者到達迭代次數(shù)的上限時,停止迭代。,數(shù)據(jù)標準化處理:,存儲中間過程數(shù)據(jù),數(shù)據(jù)標準化處理,并存儲。,,指定5類,,收斂標準值,,存儲最終結果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2),,初始聚心選項,輸出方差分析表,
5、,初始聚類中心表,,具體城市看后表,,最終聚類中心表,,聚類結果:QCL-1說明聚類結果,QCL-2說明聚類的長度情況,,系統(tǒng)聚類法Hierarchical Cluster,系統(tǒng)聚類法優(yōu)點: 既可以對觀測量(樣品)也可對變量進行聚類,既可以連續(xù)變量也可以是分類變量,提供的距離計算方法和結果顯示方法也很豐富。,應用實例,某電冰箱廠開發(fā)某一新產(chǎn)品,在投放市場前希望對以往經(jīng)銷的國內(nèi)6個地區(qū)征集對新產(chǎn)品的評價,若對新產(chǎn)品的評價
6、指標有三項:式樣、性能、顏色,評價的調(diào)整表采用10分制,調(diào)查結果的數(shù)據(jù)如下表,,,,,1 2 3 4 5 6,性能 9 1 10 9 2 8 顏色 8 2
7、 7 9 4 6 式樣 7 2 8 3 5 7,地區(qū)(樣品),指標,用分類法對6個樣品進行分類,以估計哪些地區(qū)最有可能經(jīng)銷這類新產(chǎn)品?,按公式計算兩兩樣品間的相似系數(shù),得相似矩陣,1 2 3
8、 4 5 6,123456,Q =,按四條原則進行分類,,,,作聚類分析圖,X3X6X1X4X2X5,,,,,,,,,,,,,,,,,1,0.994,0.955,0.994,0.933,一、問題提出聚類分析——對一批樣品或指標進行分類的一種統(tǒng) 計方法。,具體處理方法:(思路),1、具體研究的分類對象:樣品或指標2、方法:把“性質(zhì)相似”或“相
9、互關系密切”的樣品或指標聚在一起。3、步驟:1)首先給出度量“相似”或“關系密切”的統(tǒng)計指標,,2)形成一個由小到大的分析系統(tǒng)。3)把整個分類系統(tǒng)畫成一張分類圖,(3)相關系數(shù)(4)關聯(lián)系數(shù),指標:(1)統(tǒng)計指標是相似系數(shù)。 根據(jù)相似性歸為一類,否則為另一類。 (2)統(tǒng)計指標是樣品(空間的點)之間的距離 將距離近的點歸成一類,否則為另一類。,二、聚類統(tǒng)計量,首先定義一些分類統(tǒng)
10、計指標 —— 刻畫樣或指標之間的相似程度(這些統(tǒng)計指標稱為聚類統(tǒng)計量),在市場研究中,樣品 —— 用作分類的事物 指標 —— 用來作為分類依據(jù)的變量。(如:年齡、收入、銷售量),(一)相似系數(shù)(夾角余弦) 一般式:假定每個樣品包含有P項指標,若有幾個樣品的調(diào)查數(shù)據(jù),每一個樣品都可看成P維空間中的一個向量,,對于任意兩個樣品Xi和Xj的相似程度可用這兩個向量之間的夾角余弦,來表示:,Xi和Xj相重合時,夾角,
11、相似程度為,Xi和Xj相互垂直時,,相似程度為,相似密切,,解析幾何知識:相似系數(shù),其中:,如果把上述n個樣品的任何兩個樣品的相似系數(shù),都計算出來并排列成一,個矩陣:,根據(jù)算出的,,就可對n個樣品進行聚類,用相似系數(shù)作為聚類統(tǒng)計量時的分類方法,1、分類原則: (1)若選出一對樣品,在已分好的類中未出現(xiàn),則形成一個獨立新類。 (2)若選出兩個樣品中,有一個是在已分好的類中出現(xiàn)過,則把另一個樣品也加入到該類中去。 (3)若選出一對樣品
12、,都分別出現(xiàn)已經(jīng)分好的兩類中,則把這兩個類聯(lián)結在一起。 (4)若選出的一對樣品都出現(xiàn)在同一組中,則這對樣品就不用再分組了。按上述四條原則反復進行,直到把所有樣品都分類完畢,最后以分類圖形式表示,2、分類方法,例:設有7個樣品,每個樣品測得P個指標,數(shù)據(jù)如表,,,,X1 X2 X3 X4 X5 X6 X7,,,樣品,指標,要求對此7個樣品進行聚類,采用的聚類統(tǒng)計量是相似系數(shù)(夾角余弦),首先
13、計算所有的兩個樣品間的相似系數(shù),1 2 3 4 5 6 7,1234567,Q =,按矩陣中的數(shù)值對7個樣品(按四個原則)進行聚類,,1 2 3 4 5 6 7,1234567,Q =,,,,,,順序 連結樣品
14、 相似系數(shù),123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1
15、 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,,,,,,,,按矩陣中的數(shù)值對7個樣品(按四個原則)進行聚類,1、記下Q中最大值q15=0.97,劃去Q中的第5行第5列2、記下Q中剩余元素最大值q13=0.94,劃去Q中的第3行第3列,行,,,,,,,,(3)記下Q中剩余元素最大值q24=0.91,
16、劃去Q中的第4行第4列(4)記下Q中剩余元素最大值q26=0.67,劃去Q中的第6行第6列(5)記下Q中剩余元素最大值q12=0.51,劃去Q中的第2行第2列(6)記下Q中剩余元素最大值q17=0.24,作聚類圖:,X1X5X3X2X4X6X7,,,,,,,,,,,,,,,,,,,,0.97,0.94,0.91,0.67,0.51,0.24,2)利用相關作聚類分析,例:設有n個樣品,每個樣品測得8個指標X1,X2,…,
17、X8。要求對8個指標進行聚類,聚類統(tǒng)計量采用相關系數(shù),設相關矩陣R = ( )為:,,1 2 3 4 5 6 7 8,12345678,,,,,,順序 連結樣品 相似系數(shù),1234567,X1 X6 0.99
18、 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3
19、 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7,,,,R=,按矩陣R中數(shù)值對8個指標(按四個原則)進行聚類:1)記下矩陣中的最大值,,劃去第6行第6列,2)記下矩陣中的最大值,,劃去第3行第3列,以此類推。,作聚類圖:,X1X6X3X4X2X7X5X8,,,,,,,,
20、,,,,,,,,,,,,,,,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照時數(shù),,注:連續(xù)變量,SPSS提供不同類間距離的測量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,,觀測量概述表,,聚類步驟,與圖結合看!,,,,,,,,,,,,,4、5,,聚類方法有系統(tǒng)聚類和逐步聚類,輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關矩陣(CO
21、RR過程產(chǎn)生)或協(xié)方差矩陣(FACTOR等過程產(chǎn)生)。SAS提供的聚類過程有:1、CLUSTER對坐標數(shù)據(jù)或距離數(shù)據(jù)的觀測值用11種方法進行系統(tǒng)聚類,當觀測值數(shù)太多時,不宜直接采用。2、FASTCLUS對于坐標數(shù)據(jù),用K-均值法對觀測值進行逐步聚類,當觀測值很多時,則先用FACTCLUS過程對其進行初步聚類,然后再用CLUSTER過程進行系統(tǒng)聚類。3、VARCLUS通過斜交多組分量分析對變量進行系統(tǒng)聚類或逐步聚類。4、TREE為
22、CLUSTER或VARCLUS過程產(chǎn)生的輸出畫樹狀圖。,CLUSTER過程開始每個觀測值自成一類,然后求兩兩之間的距離,將距離最近的兩個觀測值合成一類。這個過程一直進行下去,每次減少一類,直到合成一類為止。聚類方法有11種,可根據(jù)問題的性質(zhì)選用,它們的區(qū)別在于怎樣計算兩類之間的距離。METHOD=指定方法AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距離法)、DENSITY(密度法)、MEDIAM(
23、中位數(shù)法)等,美國十個城市的分類根據(jù)兩個城市見航空距離將美國十個大城市作分類,,,,,,,聚類分析SAS程序:,,原始數(shù)據(jù)是兩兩之間距離的三角陣(而不是坐標),,,輸入格式,,55列為城市,,15位,,平均法重心法最小距離法,,,輸出F及t統(tǒng)計量,,觀測值之間距離的均方根,,輸出結果:,,類數(shù),,,指出被合并的類,,新類中的觀測值數(shù),,,類間距離除以觀測值間距離均方根得來,,,F、t**2峰值(起伏)越大說明分類顯著,,研究各種飲
24、料在市場消費的分配規(guī)律,試確定各種飲料消費類型,聚類分析的第幾步,,哪兩個樣本或小類聚成一類,,相應的樣本距離或小類距離,,指明是樣本(0)還是小類(n),,下面第幾步用到,,垂直冰柱圖顯示層次聚類分析,從冰柱圖最后一行開始觀察,第一列表示類數(shù),,,,,,,,,,,兩步聚類法TwoStep Cluster,一種探索性的聚類方法,是隨著人工智能的發(fā)展起來的智能聚類方法中的一種。用于解決海量數(shù)據(jù)或具有復雜類別結構的聚類分析問題。,兩步聚類
25、法特點:1、同時處理離散變量和連續(xù)變量的能力2、自動選擇聚類數(shù)3、通過預先選取樣本中的部分數(shù)據(jù)構建聚類模型4、可以處理超大樣本量的數(shù)據(jù),簡單介紹基本原理分兩步進行第一步:預聚類。對記錄進行初始的歸類,用戶自定義最大類別數(shù)。通過構建和修改特征樹(CT Free)完成。第二步:正式聚類。對第一步完成的初步聚類進行再聚類并確定最終的聚類方案,系統(tǒng)根據(jù)一定的統(tǒng)計標準確定聚類的類別數(shù)目。以后,可以通過傳統(tǒng)的聚類方法進行聚類(SPS
26、S中采用合并型分層聚類法)。,輸出各變量在聚類中比重圖,,輸出出聚類餅分圖,,每個變量做一張條圖,,每一各類別做兩張,分別為連續(xù)與離散聚類,,重要性測度,,1、質(zhì)心表和頻數(shù)表2、聚類分析表3、自動聚類結果表,,聚類數(shù)目,,數(shù)值越小效果越好,,BIC相鄰兩項差值,,看數(shù)據(jù)的峰值,看聚類效果。4、8、10、14類。,,BIC準則-Schwartz Bayesian Criterion,,離散變量頻數(shù)表的圖形表示,,連續(xù)變量在各個類別中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- spss聚類分析和判別分析論文
- spss概覽--數(shù)據(jù)分析實例詳解
- 基于spss的統(tǒng)計專業(yè)學生能力傾向聚類分析
- spss概覽--數(shù)據(jù)分析實例詳解
- spss概覽--數(shù)據(jù)分析實例詳解
- spss軟件聚類分析過程的圖文解釋及結果的全面分析
- 基于spss聚類分析的公路隧道圍巖亞分級方法研究.pdf
- 01-spss軟件聚類分析過程的圖文解釋及結果的全面分析
- 聚類分析
- spss相關分析
- 聚類分析
- spss數(shù)據(jù)分析教程之spss信度分析和效度分析
- spss數(shù)據(jù)分析教程之spss信度分析和效度分析
- spss經(jīng)濟分析論文
- spss分析報告實例
- spss回歸分析作業(yè)
- 綜合聚類分析
- spss數(shù)據(jù)分析教程之spss信度分析和效度分析(doc)
- 第04課spss結果瀏覽窗口用法詳解(1)
- 關聯(lián)分析--spss例析
評論
0/150
提交評論