第二節(jié) 離散趨勢指標

作者:徐榮祥 出版社:中國科學(xué)技術(shù)出版社 發(fā)行日期:2009年7月

離散(dispersion)趨勢指標指的是計量資料所有觀察值偏離中心位置的程度(measures of variation)。描述離散趨勢的主要統(tǒng)計指標有全距(range,R)、方差(variance)、標準差(standard deviation)、變異系數(shù)(coefficient of variation)等。
一、全距
全距又稱極差,以符號R表示。R等于一個變量的所有觀察值中最大值(maximum,Max)與最小值(miximum,Max)之間的差值。計算公式為(368):R=Max-Max。當計算計量單位相同的變量時,全距越大,觀察值的離散程度越大。
如一組燒傷病人的最大燒傷面積為90%TBSA,最小面積為10%TBSA,按公式(368)計算,R=90-10=80%TBSA。
二、方差
方差是離均差平方和的平均值,方差的大小只與觀察值離散程度有關(guān),而與觀察值個數(shù)的多少無關(guān)。樣本方差以符號S2表示,是總體方差的估計值,按公式(369)計算:

式中∑(X-X)2為離均差平方和, n-1為自由度(n′)。因總體方差不易得到,實際工作中常用樣本方差作為總體方差的估計。
方差多用于方差分析或兩個樣本標準差合并計算之用。如甲組25人,標準差為28,乙組46人,標準差為22,兩組合并標準差公式為(369):

三、 標準差
根據(jù)上述見解,全距系指一組變量值中最大值與最小值的差;標準差則表示這一組變量值分布的離散程度。為進一步說明其離散程度,試看下面這兩組數(shù)據(jù):
A組:80、90、100、110、120(平均數(shù)=100)
B組:98、99、100、101、102(平均數(shù)=100)
這兩組數(shù)值的均數(shù)都是100,但是變量值的波動范圍卻有很大差別,A組數(shù)據(jù)最大值與最小值之差(全距)為40(120~80),B組數(shù)據(jù)最大值與最小值之差(全距)為4(102~98)。由此可見,A組數(shù)據(jù)的波動范圍比B組大得多。故均數(shù)不能完全說明事物內(nèi)部的實質(zhì),需要用標準差來綜合分析。目前認為反映數(shù)據(jù)精確度較為完善的指標就是標準差。
又如:甲組5例病人的燒傷總面積分別為90%、80%、70%、21%、9%TBSA,平均為54%TBSA;乙組5例病人的燒傷總面積分別為100%、49%、49%、36%、36%TBSA,平均值也為54%TBSA,但甲組特重度病人有3例,乙組僅有1例。兩組均值雖然相等,但并無同質(zhì)性和可比性,同時也可看出標準差的重要性。因為標準差是一個個體數(shù)據(jù)偶然性波動大小的標準尺度,標準差大,表示個體數(shù)據(jù)波動性大,標準差小,表示個體數(shù)據(jù)波動性小。
四、標準差計算
1直接計算公式(3610):

S為標準差,∑Χ2為變量值平方后的和,(∑x)2是變量值總和后的平方,n為變量個數(shù)。
示例365:測得9例創(chuàng)面出血病人的血小板數(shù)量分別為:30、50、40、40、50、40、30、50、149(×109/L),求它們的標準差。
【解題步驟】
先分別求出公式(3610)中的∑Χ2和(∑Χ)2/n,及n-1值,然后代入公式。
因為∑Χ2為變量值平方后的和,即:
∑Χ2=302+502+402+402+502+402+302+502+1492=36301
[(∑Χ)2]/n=(30+50+40+40+50+40+30+50+149)2/9=254934
(n-1)為(9-1)=8
代入公式(3610),得:

答:9例創(chuàng)面出血病人的血小板標準差為36755×109/L。
2大樣本加權(quán)法公式
計算大樣本資料,應(yīng)繪制頻數(shù)表資料,根據(jù)公式(3611)計算標準差:

式中∑fX為各組段X與本組段頻數(shù)乘積之和,∑fΧ2為各組段fx與本組段X乘積之和。
示例366仍以例362為例,即某院調(diào)查了110例特重度燒傷病人的血液血紅蛋白含量,其濃度范圍在115~150 g/L之間,求其標準差。
【解題步驟】
根據(jù)表362中提供的數(shù)據(jù),將(∑f)=110、(∑fX)=13194、(∑fΧ2)=1584990代入公式(3611),得:

結(jié)果:110例燒傷病人的血紅蛋白標準差為472g/L。
五、變異系數(shù)
在統(tǒng)計學(xué)上將變量值間的差異稱為變異,表明這種變異的指標有全距、標準差和變異系數(shù)。如上所述,標準差的作用是用來確定兩組數(shù)據(jù)的波動程度,一般情況下,哪一個標準差大,哪一組的數(shù)據(jù)波動范圍也大;哪一個標準差小,其波動范圍也小。但是,當比較不同類型的數(shù)據(jù)時,如身長與體重,或兩個平均數(shù)相差較大時,若直接用標準差判斷它們的波動程度就不妥當了,因為標準差只能反映絕對波動大小,不能反映相對波動大小。這種表達相對數(shù)波動大小的指數(shù)稱為變異系數(shù),用cv或ν表示。該指標也可理解為用百分比表示的標準差,即標準差(s)與均數(shù)(X)之比。其公式為(3612):

示例367某院調(diào)查了7歲男孩身高均數(shù)為12116cm,標準差為431cm,胸圍均數(shù)5771cm,標準差為282cm。比較兩者的變異程度。
【解題步驟】
根據(jù)公式(3612),分別求身長變異系數(shù)和胸圍變異系數(shù):

答:本例身長均數(shù)明顯大于胸圍均數(shù),若與標準差直接比較,胸圍的變異系數(shù)似乎小于身長,但經(jīng)過變異系數(shù)計算,結(jié)論為胸圍的變異程度并不比身長變異程度小。由此可見,身長的變異程度比胸圍穩(wěn)定。
六、標準誤
因為均數(shù)的標準誤與樣本標準差相似,都是說明離散程度的指標,故在此作一介紹。變異系數(shù)均數(shù)標準誤有兩種,一種是總體標準誤,一種是樣本標準誤??傮w標準誤(σx)和樣本標準誤(sx、SE、SEM)是表示均數(shù)誤差程度的指標。在醫(yī)學(xué)研究中,常在總體中抽出一部分作為樣本,然后再根據(jù)樣本的觀察結(jié)果推論總體情況。但是,由于在同一總體中的個體之間必然存在著差異(如同是50%TBSA燒傷),樣本均數(shù)與總體均數(shù)之間存在差異,各個樣本均數(shù)之間必然產(chǎn)生差異,謂之標準誤(sx),是由抽樣引起的。標準誤越小,說明樣本均數(shù)與總體均數(shù)越接近,用樣本均數(shù)推論總體均數(shù)的可能性越大;反之,標準誤越大,說明用樣本均數(shù)推論總體均數(shù)的可能性越小。故均數(shù)標準誤是測定樣本均數(shù)變異范圍的尺度。在醫(yī)學(xué)資料中,常用樣本均數(shù)±標準誤的形式(x±sx)表示資料的可靠程度。一般來說,在x±1×sx的范圍內(nèi),總體均數(shù)出現(xiàn)的概率為683%;在x±2×sx的范圍內(nèi),總體均數(shù)出現(xiàn)的概率為95%,或者說有95%以上的把握可認為總體均數(shù)在這個范圍之內(nèi),也可認為重復(fù)同樣實驗100次,得出100個均數(shù),會有95%以上的均數(shù)分布在x±2×sx的范圍內(nèi)。公式(3613)為:

sx為標準誤,s為樣本標準差,n為樣本個數(shù)。
示例368某院抽查了100例病人的血液紅細胞數(shù)量,其樣本均值為50×109/L,樣本標準差為246×109/L,求其標準誤。
【解題步驟】
根據(jù)公式(3613),求得:

答:本例樣本標準誤為0246(×109/L),資料的可靠程度為50±0246(×109/L)。
七、平均數(shù)、標準差、標準誤的應(yīng)用
1表示正常范圍如體溫、脈搏,血壓,紅細胞,白細胞等正常值等計算均需要標準差的參與。正常值范圍一般是以平均數(shù)±2個標準差作為劃定界限,現(xiàn)以紅細胞為例說明這個問題。如我們所求得的健康男子紅細胞平均值為50×109/L,標準差為25×109/L,則正常男子紅細胞的正常值可定為50±2×25,即45×109/L~55×109/L范圍內(nèi)。但應(yīng)注意,在應(yīng)用此方法時,變量的分布必須是正態(tài)分布,如屬于非正態(tài)分布者,應(yīng)采取其他方法計算。
2估計受試對象所需樣本數(shù)
(1)利用標準誤公式推算樣本數(shù):
示例369某醫(yī)院測定了80名嚴重?zé)齻颊咴缙谘杭◆–r)含量,測定結(jié)果:均數(shù)(x)=1548μmmol/L,標準差(s)=158μmmol/L ,標準誤=1778μmmol/L, 即目前95%的置信限為1548±354μmmol/L ,欲求95%的置信限在158±20μmmol/L的范圍內(nèi),需要觀察多少例才能出現(xiàn)這種結(jié)果?
【解題步驟】
①根據(jù)標準誤計算公式(3613)推算樣本數(shù)(n),公式為(3614):

②因為95%的置信限為x±2×sx,今求2×sx=20,即sx=10。把有關(guān)數(shù)據(jù)代入公式(3614),得:

③結(jié)論:若把觀察人數(shù)增加到250人,可能使置信限范圍達到1548±20μmol/L 。
(2)利用兩合并標準差推算樣本數(shù):
示例3510某醫(yī)生用某藥治療粒細胞減少癥,為觀察某藥物用口服方法及肌肉注射方法對最高療效出現(xiàn)時間(天)的影響。根據(jù)預(yù)備試驗結(jié)果,口服法最高療效出現(xiàn)的平均時間為222天,肌肉注射法為175天,合并標準差(s)為1391天。問各組需觀察多少例才能使兩組均數(shù)的差異有顯著意義?   
【解題步驟】
①本例是兩個樣本平均數(shù)作比較的資料,當兩組樣本相等時,其樣本大小的估計公式為(3615):

 n=每組例數(shù),t005=表中查出的標準值,s=合并標準差,x1-x2=兩組均數(shù)差。
②當n≥30時,查表得出t005=20,因x1-x2=475,s=1391,代入公式(3615):

③結(jié)論:每組需要觀察69例才能使兩組均數(shù)差異有顯著意義。