侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

技術(shù)文章:計(jì)量資料的統(tǒng)計(jì)描述

2020-12-30 09:02
科研菌
關(guān)注


圖3:101名正常人血清肌紅蛋白的頻數(shù)分布直方圖

根據(jù)表1的資料,以各組段紅細(xì)胞含量為橫坐標(biāo),人數(shù)(頻數(shù))為縱坐標(biāo)可繪制頻數(shù)分布直方圖,如圖1。圖2、圖3也是根據(jù)相應(yīng)的頻數(shù)分布表繪制而成,我們可以更為形象和直觀的發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律。

3、頻數(shù)表和頻數(shù)分布圖的用途——發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律

3.1 描述頻數(shù)分布的類型    頻數(shù)分布的類型可分為對(duì)稱分布和偏態(tài)分布兩種。若各組段的頻數(shù)以頻數(shù)最多組段為中心左右兩側(cè)大體對(duì)稱,則認(rèn)為該資料是對(duì)稱分布(表1及圖1);反之,則認(rèn)為是偏態(tài)分布(圖2、圖3)。圖2頻數(shù)最多組段(21~)右側(cè)的組段數(shù)多于左側(cè)的組段數(shù),頻數(shù)向右側(cè)拖尾,稱右偏態(tài)分布(skewed to the right distribution)也稱正偏態(tài)分布(positive skewness distribution)。圖3頻數(shù)最多組段(30~ )左側(cè)的組段數(shù)多于右側(cè)的組段數(shù),頻數(shù)向左側(cè)拖尾,稱左偏態(tài)分布(skewed to the left distribution),也稱負(fù)偏態(tài)分布(negative skewness distribution)。

3.2 描述頻數(shù)分布的特征     如在圖2中,我們可以發(fā)現(xiàn)主要的2點(diǎn)特征:①數(shù)據(jù)變異的范圍在0~45mmol/L之間;②有一定的規(guī)律,數(shù)據(jù)主要集中在20~30組段之間。數(shù)值較大的值多于數(shù)值較小的值,左右分布并不對(duì)稱。

3.3 頻數(shù)分布表可用發(fā)小一些異常值,如特別小的值或特別大的值。

3.4 頻數(shù)分布表可用于發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律,便于做進(jìn)一步統(tǒng)計(jì)分析和處理

二、 計(jì)量資料的集中趨勢(shì)

(1)均數(shù)(算術(shù)均數(shù)、幾何均數(shù))算數(shù)均數(shù)(mean)    均值是一個(gè)平均數(shù),所以均值的計(jì)算方法是將一個(gè)分布中的所有取值加總起來(lái)除以取值的個(gè)數(shù)。如果一個(gè)分布中有10個(gè)取值,那么將所有取值加起來(lái)之后再除以10即可?梢岳迷紨(shù)據(jù)進(jìn)行計(jì)算,也可以利用頻數(shù)分布表進(jìn)行計(jì)算,但是其中的原理都是一樣的,即計(jì)量資料中某一變量取值的總和除以個(gè)數(shù)。適用于資料符合正態(tài)分布的計(jì)量資料,公式可以表示如下:

幾何均數(shù)(geometric mean)    用于一組經(jīng)過(guò)對(duì)數(shù)轉(zhuǎn)換后成對(duì)稱分布的變量值在數(shù)量上的平均水平,在醫(yī)學(xué)上常見(jiàn)的是免疫學(xué)的指標(biāo),其計(jì)算公式為:

例1,某地5例微絲蚴血癥患者治療7年后用間接受光抗體試驗(yàn)測(cè)得其抗體滴度倒數(shù)分別為10、20、40、40、16,求幾何均數(shù)。

故5份血清抗體效價(jià)的平均滴度為1:34.8。

對(duì)于頻數(shù)表資料,幾何均數(shù)的計(jì)算公式為:

(2) 中位數(shù)與百分位數(shù)中位數(shù)     中位數(shù)(median)是將n個(gè)變量值從小到大排列,位置居于中間的那個(gè)數(shù)。當(dāng)n為奇數(shù)時(shí)取位次居中的變量值,當(dāng)n為偶數(shù)時(shí)取位次居中的兩個(gè)變量值的均數(shù)。它適用于各種分布類型的資料,尤其是偏態(tài)分布資料和一端或兩端無(wú)確切數(shù)值的資料。其計(jì)算公式為:

例3:試計(jì)算表2某醫(yī)院1123名產(chǎn)后出血孕婦人工流產(chǎn)次數(shù)的中位數(shù)。對(duì)于離散型變量資料,因?yàn)閚= 1123,故中位數(shù)是從小到大排序后居于(n+ 1)/2=(1123+ 1)/2= 562位的觀察值。據(jù)表2,排在第 1~402 位的觀察值均為“0”,其累計(jì)頻率為35.80%;排在403 ~732位的觀察值"1”,其累計(jì)頻率為65.18%,余類推。第562位數(shù)屬于第二個(gè)變量值,即人流次數(shù)為“1”,故某醫(yī)院1123名產(chǎn)后出血孕婦人工流產(chǎn)次數(shù)的中位數(shù)為M=X(562) =1 。

百分位數(shù)     百分位數(shù)(percentile),是一種位置指標(biāo), 用Px來(lái)表示,讀作第x百分位數(shù)。一個(gè)百分位數(shù) Px將全部變量值分為兩部分,在Px處若無(wú)相同變量值,則在不包含Px的全部變量值中有x%的變量值小于它,(100-x%)變量值大于它。故百分位數(shù)是一個(gè)界值,其最重要用途是用來(lái)確定醫(yī)學(xué)參考值范圍(reference range),后面我們會(huì)談到。中位數(shù)實(shí)際上是第50百分位數(shù),是百分位數(shù)中的一個(gè)特殊值。

例4:對(duì)某醫(yī)院細(xì)菌性痢疾治愈者的住院天數(shù)統(tǒng)計(jì),119名患者的住院天數(shù)從小到大的排列如下,試求第5百分位數(shù)和第99百分位數(shù);颊撸1 2 3 4 5 6 7 8…116 117 118 119住院天數(shù):1 1 2 2 2 3 4 4 5…39 40 40 42(119+1)x5%=6,故P(5)=X(6)=3(天)(119+1)x 99%=118.8, 故P(99)在118位和119位之間,通過(guò)對(duì)應(yīng)的公式計(jì)算出為41.6(天),詳細(xì)的計(jì)算公式我就不列出來(lái)了,因?yàn)楝F(xiàn)在都不會(huì)手動(dòng)計(jì)算啦,我們掌握它的應(yīng)用和意義更為重要。故我們解讀一下這里涉及的P(5)和P(99)的意義:P(5)的意義是該醫(yī)院有5%的細(xì)菌性痢疾治愈者的住院天數(shù)少于3天,或者說(shuō)有95%的細(xì)菌性痢疾治愈者的住院天數(shù)多于3天。P(99)的意義是絕大多數(shù)(99%)細(xì)菌性痢疾治愈者的住院天數(shù)少于41.6天。

利用頻數(shù)分布表計(jì)算百分位數(shù):例5: 某地118名鏈球菌咽喉炎患者的潛伏期頻數(shù)表見(jiàn)表3第(1)、(2)欄,求中位數(shù)及第25位、第75位百分位數(shù)。

中位數(shù)對(duì)應(yīng)的累計(jì)頻率是50%,對(duì)表中第(4)欄從上到下讀累計(jì)頻率,小于48天的累計(jì)頻率為44.9%,小于60天的累計(jì)頻率為65.3,故中位數(shù)所在組段為“48~”,n= 118(樣本總量),L50 = 48(P50所在組段的下界),i50= 12(組間距),f50=24(P50所在組段的樣本量), L =53(P50前一組段的累積頻數(shù)),帶入計(jì)算公式得:M=P50=48+12/24(118x50%-53)=51(天)

同樣的計(jì)算原理,我們可以計(jì)算出P25和P75:P25=36+12/32(118x25%-21)=39.2(天)P75= 60+12/18(118x75%-77)=67.7(天)

對(duì)于離散變量的頻數(shù)表資料,第X百分位數(shù)為Px所在變量值處的變量值,如對(duì)表2資料有P95=3;若每個(gè)組有幾個(gè)變量值,則必須根據(jù)原始數(shù)據(jù)用直接法求Px。

眾數(shù)     眾數(shù)(mode)是使用最少的集中趨勢(shì)指標(biāo),因?yàn)樗峁┑男畔⒘孔钌。眾?shù)只是指出分布中最常出現(xiàn)的取值,或者具有最高頻數(shù)的取值。

三、 計(jì)量資料的離散趨勢(shì)

離散(dispersion)趨勢(shì)指的是計(jì)量資料所有變量值偏離中心位置的程度,要全面刻畫(huà)一組數(shù)據(jù)(變量值)的數(shù)量特征,除計(jì)算平均指標(biāo)外,還必須計(jì)算反映離散程度的指標(biāo)。描述離散程度的常用指標(biāo)有極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差和變異系數(shù)。

極差(Range)

如前所述,極差即一組變量值的最大值與最小值之差。極差計(jì)算簡(jiǎn)便,概念清晰,因而應(yīng)用比較廣泛,如說(shuō)明傳染病、食物中毒的最長(zhǎng)、最短潛伏期等.

例6:試計(jì)算下面三組同齡男孩的身高(cm)均數(shù)和極差。甲組:90 95 100 105 110   乙組:96 98 100 102 104   丙組:96 99 100 101 104  計(jì)算得出:

比較以上三組數(shù)據(jù)發(fā)現(xiàn),雖然三組均數(shù)相等,但極差卻不盡相間,甲組5個(gè)兒童身高差異20 cm,乙組和丙組只有8 cm。我們可以很容易的得出結(jié)論,若僅比較三組的均數(shù),而不比較個(gè)體差異的大小,不能全面反映三組兒童身高。

用極差來(lái)描述數(shù)據(jù)的變異程度并不全面。僅能反映最大值與最小值的差值,而不論其他數(shù)值的情況。

四分位數(shù)間距

四分位數(shù)(quartile)是把全部變量值分為四部分的分位數(shù),即第1四分位數(shù)(QL=P25)、第2四分位數(shù)(M=P50)、第3四分位數(shù)(QU=P75)。四分位數(shù)間距(quartile range)是由第3四分位數(shù)和第1四分位數(shù)相減而得,記為QR。它一般和中位數(shù)起描述偏態(tài)分布資料的分布特征。

方差與標(biāo)準(zhǔn)差

方差(variance)也稱均方差(mean square deviation),反映組數(shù)據(jù)的平均離散水平。離均差平方和除以N得到了方差,總體方差用σ2。常與均數(shù)一起描述正態(tài)分布資料的分布特征。其計(jì)算公式如下:

例7:續(xù)例6,試計(jì)算下面三組同齡男孩的身高(cm)標(biāo)準(zhǔn)差。甲組:90 95 100 105 110   乙組:96 98 100 102 104  丙組:96 99 100 101 104  帶入公式得:S甲=7.9cm,S乙=3.2cm,S丙=2.9cm由于丙組的標(biāo)準(zhǔn)差較小,說(shuō)明組間變異程度較小,故可以認(rèn)為其均數(shù)的代表性較其他組要好。

變異系數(shù)

變異系數(shù)(Coefficient of variation)記為CV,多用于觀察指標(biāo)單位不同時(shí),如身高與體重的變異程度的比較;或均數(shù)相差較大時(shí),如兒童身高與成人身高變異程度的比較。其計(jì)算公式為:

例8:某地7歲男孩身高的均數(shù)為123.10 cm,標(biāo)準(zhǔn)差為4.71 cm;體重均數(shù)為22.92 kg,標(biāo)準(zhǔn)差為2.26kg。此處不能因?yàn)?.71>2.26,就說(shuō)身高的變異比體重要大,而要考慮到兩者的單位不同,無(wú)法直接比較,故采用變異系數(shù)來(lái)解決這類問(wèn)題,它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo),無(wú)單位。上述7歲男孩身高、體重的變異系數(shù)分別為:

通過(guò)比較,說(shuō)明該地7歲男孩體重的變異大于身高的變異,或者說(shuō)身高比體重的變異小。

總結(jié):在這一小節(jié)中,我們?cè)敿?xì)的談及了描述計(jì)量資料集中趨勢(shì)和離散趨勢(shì)的指標(biāo)。也談到了它們的應(yīng)用場(chǎng)所,總結(jié)起來(lái)就是“正態(tài)分布資料:均值±標(biāo)準(zhǔn)差;偏態(tài)分布資料:中位數(shù),四分位數(shù)間距”,在以后的學(xué)習(xí)中,我們看到文獻(xiàn)中的圖表,看到其描述的方式,就應(yīng)該迅速在腦海里反映出其對(duì)應(yīng)的資料的分布情況;反之亦然,見(jiàn)到不同分布的資料,我們應(yīng)該知道用那些指標(biāo)對(duì)其進(jìn)行描述。

如上圖文獻(xiàn)[Prevalence and related factors of chronic kidney disease (CKD) among long-lived individuals (LLI) over 95 years of age]中的表1,我們可以看到連續(xù)型變量使用(均數(shù)±標(biāo)準(zhǔn)差)的形式進(jìn)行統(tǒng)計(jì)描述;而分類變量使用的是構(gòu)成比的形式進(jìn)行描述。因?yàn)樵趯?shí)際工作和生活中,偏態(tài)分布的例子極少,而作者研究中僅用連續(xù)變量和分類變量區(qū)分變量類型,故未展示(中位數(shù),四分位間距)這一表現(xiàn)形式。

參考資料:

1.人民衛(wèi)生出版社《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》第4版  孫振球 徐勇勇 著2.中國(guó)人民大學(xué)出版社《白話統(tǒng)計(jì)學(xué)》第3版   蒂莫西.C.厄丹(Timothy C.Urdan)著,彭志文譯3.Zujun et al.,2015,Prevalence and related factors of chronic kidney disease (CKD) among long-lived individuals (LLI) over 95 years of age,Archives of Gerontology and Getratrics,Volume 60,Issue2,March–April 2015, Pages 354-358  

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

醫(yī)療科技 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)