第02章--計量資料的統計描述正式_第1頁
已閱讀1頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1,計量資料的統計描述Statistical Description of Measurement Data,第2章,蔣紅衛(wèi)Email: JHWCCC@21CN.COM,2,講課內容:,1. 頻數分布2. 集中趨勢的描述3. 離散趨勢的描述4. 正態(tài)分布5. 醫(yī)學參考值范圍的制定,3,第一節(jié)頻 數 分 布,Frequency Distribution,4,個體變異,個體變異(individual variatio

2、n)是同質觀察對象間表現出的差異。變異是生物體在一種或多種、已知或未知的不可控因素作用下所產生的綜合反映。就每個觀察單位而言,其觀察指標的變異是不可預測的,或者說是隨機的(random)。就總體而言,個體變異是有規(guī)律的。,5,個體變異是統計學應用的前提,個體變異,抽樣誤差,統計推斷,例2-1 138名成年女子的紅細胞數,一、頻數分布表(frequency table),7,頻數分布表,將變量值化為若干個組段,清點并記錄各組段變量

3、值的個數,稱為頻數表了解變量值的分布情況,表2-1 138名成年女子的紅細胞數的頻數分布表,(1)求極差(range):即最大值與最小值之差,又稱為全距。R=5.46 –3.07 =2.39(2) 確定組段數和組距:根據研究目的和樣本含量n確定分組組數,通常分為10~15個組。組距=極差/組數,為方便計,組距為極差的十分之一, 再略加調整。2.39/12=0.199 ≈0.20 (3) 列出組段:第一組段的下限略小于最

4、小值,最后一個組段上限必須包含最大值。3.07~ 3.27~ …… 5.07~ 5.27~5.47(4) 分組劃記并統計頻數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。,頻數表的編制步驟,二、頻數分布圖(graph of frequency distribution),138名成年女子的紅細胞數的頻數分布,三、頻數表和頻數分布圖用途,1.描述頻數分布的類型正態(tài)分布正(右)偏態(tài)分布,負(左)

5、偏態(tài)分布2. 描述頻數分布特征變異范圍分布規(guī)律(集中位置、頻率分布)3. 便于發(fā)現資料中的可疑值4. 便于計算有關指標,進一步做統計分析,三、頻數表和頻數分布圖用途,1.描述頻數分布的類型(對稱分布、偏態(tài)分布) (1)對稱分布 :若各組段的頻數以中心位置左右兩側大體對稱,就認為該資料是對稱分布,是否為對稱分布?,是否為對稱分布?,(2)偏態(tài)分布 : 1)右偏態(tài)分布(正偏態(tài)分布):右側的組段數多于左側的組段數

6、,頻數向右側拖尾。,表2-2 115名正常成年女子血清轉氨酶(mmol/L)含量分布,左偏態(tài)分布(負偏態(tài)分布):,左側的組段數多于右側的組段數,頻數向左側拖尾。,表2-3 101名正常人的血清肌紅蛋白含量分布,2.描述頻數分布的特征,表2-1數據的頻數分布特征:①數據變異(離散)的范圍在57~84 (次/分 )②數據集中(平均)的組段在68~73 (次/分)之間,尤以組段的人數71~(次/分)最多。且上下組段的頻數分布基本對

7、稱。,,,,3.便于發(fā)現一些特大或特小的可疑值,,4.便于進一步做統計分析和處理,21,第二節(jié)集中趨勢的描述,Description of Central Tendency,22,平均數(average),平均數:描述一組同質變量值中心位置或平均水平主要有:算術均數幾何均數中位數,一、算術均數,簡稱均數(mean), 樣本均數, 總體均數可用于反映一組呈對稱分布

8、的變量值在數量上的平均水平或者說是集中位置的特征值。均數的幾何意義:代表每組觀察值的平衡點,即重心。如1,4,7,8的均數為5.均數重要特性:,公式 :,例:138名正常成年女子紅細胞數的均數,(1)直接計算法,(2)頻數表 (加權法 weighted means):,公式 :,,k:頻數表的組段數, f :頻數, X:組中值。,表2-2 138名正常成年女子紅細胞數的頻數分布表,應用,均數適用于對稱分布,特別

9、是正態(tài)分布資料。,二、 幾何均數(geometric mean),可用于反映一組經對數轉換后呈對稱分布或正態(tài)分布的變量值在數量上的平均水平。,(1)直接計算法,,,幾何均數:變量對數值的算術均數的反對數。,,其他對數(如自然對數)變換獲得相同的幾何均數,例2-4 某地5例微絲蚴血癥患者治療七年后用間接熒光抗體試驗測得其抗體滴度倒數分別為,10,20,40,40,160,求幾何均數。,(2)加權法,公式:,例2-6 69例類風濕關節(jié)

10、炎(RA)患者血清EBV-VCA-lgG抗體滴度的分布見表2-4第(1)、(2)欄,求其平均抗體滴度。,2、應用:,適用于成等比數列的資料,特別是服從對數正態(tài)分布資料。,三、  中位數與百分位數,11個大鼠存活天數:4,10,7,50,3,15,2,9,13,>60,>60平均存活天數?(一)中位數(median) 是將每個變量值從小到大排列,位置居于中間的那個變量值。,計算,

11、公式: n為奇數時 n為偶數時,例2-6 7名病人患某病的潛伏期分別為2,3,4,5,6,9,16天,求其中位數。,例2-7 8名患者食物中毒的潛伏期分別為1,2,2,3,5,8,15,24小時,求其中位數。,應用,1、各種分布類型的資料2、特別適合大樣本偏態(tài)分布資料或者一端或兩端無確切數值的資料。,Px是一個界值,將全部變量值分為兩部分,在不包含Px的全部變量值中有X%的變量值比它小,有(100-X)%的變量值比它大。

12、50%分位數就是中位數25%,50%,75%分位數稱為四分位數(quartile),(二)百分位數(percentile),1.直接計算法,設有n個原始數據從小到大排列,第X百分位數的計算公式為:當 為整數時: 當 為帶有小數位(g)時:,例 對某醫(yī)院細菌性痢疾治愈者的住院天數統計,119名患者的住院天數從小到大排列如下,試求第5百分位數和第99百分位數。,

13、患 者:住院天數: (1)n+1=120, ,為整數:(2) ,帶有小數,,2.頻數表法,公式:,,,,,Lx: Px所在組下限ix: Px所在組組距fx: Px所在組頻數∑fL: 小于Px所在組的各組累計頻數,當 時,公式(2-9)即為中位數的計算公式

14、,例 某地118名鏈球菌咽喉炎患者潛伏期。,5344.9%50%24 5965.3%,P25=36+12/32x[(118x25%-21)]=39.2(天)P75=60+12/18x[(118x75%-77)]=67.7(天),應用平均數的注意事項,,,,,同質的資料計算平均數才有意義均數適用于單峰對稱分布的資料幾何均數適用于對數變換后單峰對稱分布資料中位數適用于任何單峰分布資

15、料中位數和百分位數在樣本含量較小時不穩(wěn)定,越靠兩端越不穩(wěn)定大樣本時,中位數在抗極端值的影響方面,比均數具有較好的穩(wěn)定性,但不如均數精確;當資料適合計算父親數或幾何均數時,不宜用中位表示其平均水平。,只用平均數描述計量資料的弊端,,,,,It has been said that a fellow with one leg in frozen ice and the other leg in boiling water is com

16、fortable ON AVERAGE!一條平均水深1.0米的河流比一個平均水深1.5米的游泳池安全!兩組平均30歲的人均為年輕人?。ㄒ唤M10人均為30歲,另一組5人為59歲,5人為1歲),48,第三節(jié)離散趨勢的描述,Description of Dispersed Tendency,例2-11 三組同齡男孩的身高(cm),甲組 90 95 100 105 110 100 乙組 96 9

17、8 100 102 104 100丙組 96 99 100 101 104 100,,,,,引起同質事物差異的原因主要是個體變異,其次是測量誤差描述計量資料數據間離散程度的指標極差、四分位數間距離均差平方和、方差、標準差變異系數,一、極差(R, range),,,,,R=最大值-最小值甲組 90 95 100 105 110 100 R=20

18、cm乙組 96 98 100 102 104 100 R= 8cm丙組 96 99 100 101 104 100 R= 8cm意義:R值越大,表示該組數據的變異越大優(yōu)點:計算簡單缺點:數據利用不全,部分信息損失;在例數少時,結果不穩(wěn)定,二、四分位數間距(QR, quartiel range),,,,,P0P25P50P75P1

19、00,第一四分位數第二四分位數第三四分位數,QR,,P25=36+12/32x[(118x25%-21)]=39.2(天)P75=60+12/18x[(118x75%-77)]=67.7(天),作為變異指標比極差穩(wěn)定常用于描述偏態(tài)分布資料的離散情況表示方法:M(QR) 51(28.5)天,例 某地118名鏈球菌咽喉炎患者潛伏期。,三、方差和標準差(variance and standard deviation)

20、,,,,,離均差平方和總體方差總體標準差,三、方差和標準差(variance and standard deviation),,,,,離均差平方和總體方差總體標準差樣本標準差,,,樣本標準差,,,,,三組同齡男孩的身高值(cm)甲組 90 95 100 105 110 100 R=20 S=7.91乙組 96 98 100 102 104 1

21、00 R= 8 S=3.16丙組 96 99 100 101 104 100 R= 8 S=2.92意義:反映一組同質變量值與其均數的間距,故標準差全面地、平均地描述了變量值的離散程度單位相同時,S較大,表示該組變量值的分布較分散、波動較大,同時表示該組均數對本組數據的代表性較差。S較小,則反之。,表2-2 138名正常成年女子紅細胞數的頻數分布表,四、變異系

22、數(CV, coefficient of variation),,,,,相對變異指標適用情況:觀測指標單位不同觀測指標單位相同,但均數相差懸殊意義:CV越大,表示數據變異越大。常用于衡量方法、儀器的精密度。,1.單位不同時組間變異程度的比較。,某地7歲年齡組男童身高與體重 指標 S CV(%)身高(cm

23、) 123.10 4.71 3.83體重(kg) 22.29 2.26 10.14結論: 7歲年齡組男童身高與體重值指標比較,體重指標的變異大于身高指標。,,,,某地不同年齡組男童身高(cm)年齡組 S CV%1-2月 56.3 2.1 3.7

24、35-6月 66.5 2.2 3.313-3.5歲 96.1 3.1 3.225-5.5歲 107.8 3.3 3.06結論:隨著年齡增加,身高的變異變小。,2.比較組單位相同,但均數相差懸殊的組間變異程度比較,,,,計量數據的統計描述小結,1. 在醫(yī)學雜志中正態(tài)或近似正態(tài)的資料,常以形式

25、 表達,描述和比較數據的平均水平和離散程度。 兩組患者年齡(歲)的比較組別 n 范圍值試驗組 12 45.9 ± 3.7 35-57對照組 10 50.5 ± 13.0 18-83兩組患者基線情況的比

26、較,,,,,,,2.偏態(tài)分布或特定資料(生存時間、病程、潛伏期時間等)1)用中位數和四分位間距描述。表達形式:中位數(四分位數間距),M(QR)例2-9 :118名鏈球菌咽喉炎患者的中位潛伏期為51天,QR為28.5天。2)用百分位數的P25%、P50%、P75%描述分布位置。,3.等比數據和正偏態(tài)數據可用幾何均數和幾何標準差描述表達形式:G±SG,65,第四節(jié)正態(tài)分布,Normal Distribution,

27、,,,,正態(tài)分布首先由德國數學家A. De. Moivre于1733年提出;德國數學家Gauss發(fā)現稍晚,但他迅速應用,故又稱Gauss分布隨機誤差服從正態(tài)分布醫(yī)學研究中許多事物的指標服從或近似服從正態(tài)分布很多其他分布的極限為正態(tài)分布很多統計方法(t檢驗、方差分析等)是建立在正態(tài)分布基礎之上的,,,,,正態(tài)分布最早由A. De. Moivre在求二項分布的漸近公式中得到。C. F. Gauss在研究測量誤差時從另一個角度導出了

28、它,這項工作對后世的影響極大現今德國10馬克的鈔票上印有高斯的頭像,同時還印有正態(tài)分布的密度曲線,Carl Friedich Gauss(1777-1855),頻數分布與正態(tài)分布曲線示意圖,f(X),一、正態(tài)分布的概念和特征,1.正態(tài)分布曲線的數學函數表達式:,e為自然數,為圓周率X為連續(xù)隨機變量μ為X值的總體均數,σ2為總體方差,記為X~ N(μ,σ2),(-?<X< ?),X服從的概率密度函數f(x),f(x),,記為:x

29、~N(μ=23,σ2=32),,F(x),,,2、正態(tài)分布曲線理論上的特征,(1)以X= μ為中心, X值呈鐘型分布對稱性減少。(2 )在 X= μ處,f(x)取最大值。(3 )正態(tài)分布由μ 、σ決定 正態(tài)分布的位置和形狀。μ為位置參數。隨μ 不同,曲線位置不同。σ為形狀參數。σ越大,曲線形狀不同。,,正態(tài)分布參數位置變化示意圖,,正態(tài)分布變異度不同變化示意圖,4.曲線下x值的分布面積有一定分布規(guī)律正態(tài)變量X的分布函數,X軸與

30、正態(tài)曲線所夾面積恒等于1區(qū)間μ±σ的面積為68.27%區(qū)間μ±1.96σ的面積為95.00%區(qū)間μ±2.58σ的面積為99.00%,正態(tài)曲線下面積分布示意,二、 標準正態(tài)分布(standard normal distribution),,正態(tài)分布會隨著μ和σ的不同,其位置與形狀會發(fā)生較大變化。為了應用方便,令:,u為標準化變量(無量綱),(-?<u< ?),X ~ N(μ,σ2)轉化為u~ N(0

31、,12),標準正態(tài)分布函數,,表示從-∞到某u值范圍內標準正態(tài)分布曲線下面積。附表1 Φ(-3)=0.0013 Φ(0)=0.5000 Φ(u)=1- Φ(-u),標準正態(tài)分布曲線,,已計算出138名正常成年女性的紅細胞數均數為4.23,標準差為0.45。試估計正常成年女性的紅細胞數:1.在4.00以下者占正常成年女性總人數的百分比2.在4.00至5.00之間者占正常成年女性總人數

32、的百分比3.在5.00以上者占正常成年女性總人數的百分比,1.為30.50% 2.為65.14%3.為4.36%,u界值表,變量值分布 單側 雙側范圍(%) u值 u值80 0.84 1.2890

33、1.28 1.6495 1.64 1.9699 2.33 2.58,,,,81,第五節(jié)醫(yī)學參考值范圍的制定,Establishment of Medical Reference Range,一、概念,醫(yī)學參考值是指包括絕大多數“正常人”的各種生理及生化指標

34、常數,也稱正常值。由于存在個體差異,正常值并非常數,而是在一定范圍內波動,醫(yī)學上常用95%或99%的個體值波動范圍作為判定正?;虍惓5膮⒖紭藴?。雙側界值:血清總膽固醇單側界值:血清轉氨酶(上側) 肺活量(下側),主要適用于正態(tài)或近似正態(tài)分布的變量,樣本量足夠大一般要對資料進行正態(tài)性檢驗雙側 參考值范圍公式:單側 參考值范圍公式:,,下限值,上限值

35、,,,,二、正態(tài)近似法,例 估計正常成年女子的紅細胞數的95%參考值范圍。因血紅細胞數過多或過少均為異常,故按雙側估計正常成年女性紅細胞數的95%參數值范圍。已知:計算95%的參考范圍(雙側)結論:正常成年女子紅細胞數95%的參考值范圍為3.35-5.11(1012/L),,,,,三、百分位數法,適用于偏態(tài)分布資料樣本含量比正態(tài)分布法要多雙側 參考值范圍: 單側 參考值范圍

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論