技術(shù)文章:計(jì)量資料的統(tǒng)計(jì)描述
圖3:101名正常人血清肌紅蛋白的頻數(shù)分布直方圖
根據(jù)表1的資料,以各組段紅細(xì)胞含量為橫坐標(biāo),人數(shù)(頻數(shù))為縱坐標(biāo)可繪制頻數(shù)分布直方圖,如圖1。圖2、圖3也是根據(jù)相應(yīng)的頻數(shù)分布表繪制而成,我們可以更為形象和直觀的發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律。
3、頻數(shù)表和頻數(shù)分布圖的用途——發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律
3.1 描述頻數(shù)分布的類型 頻數(shù)分布的類型可分為對(duì)稱分布和偏態(tài)分布兩種。若各組段的頻數(shù)以頻數(shù)最多組段為中心左右兩側(cè)大體對(duì)稱,則認(rèn)為該資料是對(duì)稱分布(表1及圖1);反之,則認(rèn)為是偏態(tài)分布(圖2、圖3)。圖2頻數(shù)最多組段(21~)右側(cè)的組段數(shù)多于左側(cè)的組段數(shù),頻數(shù)向右側(cè)拖尾,稱右偏態(tài)分布(skewed to the right distribution)也稱正偏態(tài)分布(positive skewness distribution)。圖3頻數(shù)最多組段(30~ )左側(cè)的組段數(shù)多于右側(cè)的組段數(shù),頻數(shù)向左側(cè)拖尾,稱左偏態(tài)分布(skewed to the left distribution),也稱負(fù)偏態(tài)分布(negative skewness distribution)。
3.2 描述頻數(shù)分布的特征 如在圖2中,我們可以發(fā)現(xiàn)主要的2點(diǎn)特征:①數(shù)據(jù)變異的范圍在0~45mmol/L之間;②有一定的規(guī)律,數(shù)據(jù)主要集中在20~30組段之間。數(shù)值較大的值多于數(shù)值較小的值,左右分布并不對(duì)稱。
3.3 頻數(shù)分布表可用發(fā)小一些異常值,如特別小的值或特別大的值。
3.4 頻數(shù)分布表可用于發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律,便于做進(jìn)一步統(tǒng)計(jì)分析和處理
二、 計(jì)量資料的集中趨勢(shì)
(1)均數(shù)(算術(shù)均數(shù)、幾何均數(shù))算數(shù)均數(shù)(mean) 均值是一個(gè)平均數(shù),所以均值的計(jì)算方法是將一個(gè)分布中的所有取值加總起來(lái)除以取值的個(gè)數(shù)。如果一個(gè)分布中有10個(gè)取值,那么將所有取值加起來(lái)之后再除以10即可?梢岳迷紨(shù)據(jù)進(jìn)行計(jì)算,也可以利用頻數(shù)分布表進(jìn)行計(jì)算,但是其中的原理都是一樣的,即計(jì)量資料中某一變量取值的總和除以個(gè)數(shù)。適用于資料符合正態(tài)分布的計(jì)量資料,公式可以表示如下:
幾何均數(shù)(geometric mean) 用于一組經(jīng)過(guò)對(duì)數(shù)轉(zhuǎn)換后成對(duì)稱分布的變量值在數(shù)量上的平均水平,在醫(yī)學(xué)上常見(jiàn)的是免疫學(xué)的指標(biāo),其計(jì)算公式為:
例1,某地5例微絲蚴血癥患者治療7年后用間接受光抗體試驗(yàn)測(cè)得其抗體滴度倒數(shù)分別為10、20、40、40、16,求幾何均數(shù)。
故5份血清抗體效價(jià)的平均滴度為1:34.8。
對(duì)于頻數(shù)表資料,幾何均數(shù)的計(jì)算公式為:
(2) 中位數(shù)與百分位數(shù)中位數(shù) 中位數(shù)(median)是將n個(gè)變量值從小到大排列,位置居于中間的那個(gè)數(shù)。當(dāng)n為奇數(shù)時(shí)取位次居中的變量值,當(dāng)n為偶數(shù)時(shí)取位次居中的兩個(gè)變量值的均數(shù)。它適用于各種分布類型的資料,尤其是偏態(tài)分布資料和一端或兩端無(wú)確切數(shù)值的資料。其計(jì)算公式為:
例3:試計(jì)算表2某醫(yī)院1123名產(chǎn)后出血孕婦人工流產(chǎn)次數(shù)的中位數(shù)。對(duì)于離散型變量資料,因?yàn)閚= 1123,故中位數(shù)是從小到大排序后居于(n+ 1)/2=(1123+ 1)/2= 562位的觀察值。據(jù)表2,排在第 1~402 位的觀察值均為“0”,其累計(jì)頻率為35.80%;排在403 ~732位的觀察值"1”,其累計(jì)頻率為65.18%,余類推。第562位數(shù)屬于第二個(gè)變量值,即人流次數(shù)為“1”,故某醫(yī)院1123名產(chǎn)后出血孕婦人工流產(chǎn)次數(shù)的中位數(shù)為M=X(562) =1 。
百分位數(shù) 百分位數(shù)(percentile),是一種位置指標(biāo), 用Px來(lái)表示,讀作第x百分位數(shù)。一個(gè)百分位數(shù) Px將全部變量值分為兩部分,在Px處若無(wú)相同變量值,則在不包含Px的全部變量值中有x%的變量值小于它,(100-x%)變量值大于它。故百分位數(shù)是一個(gè)界值,其最重要用途是用來(lái)確定醫(yī)學(xué)參考值范圍(reference range),后面我們會(huì)談到。中位數(shù)實(shí)際上是第50百分位數(shù),是百分位數(shù)中的一個(gè)特殊值。
例4:對(duì)某醫(yī)院細(xì)菌性痢疾治愈者的住院天數(shù)統(tǒng)計(jì),119名患者的住院天數(shù)從小到大的排列如下,試求第5百分位數(shù)和第99百分位數(shù);颊撸1 2 3 4 5 6 7 8…116 117 118 119住院天數(shù):1 1 2 2 2 3 4 4 5…39 40 40 42(119+1)x5%=6,故P(5)=X(6)=3(天)(119+1)x 99%=118.8, 故P(99)在118位和119位之間,通過(guò)對(duì)應(yīng)的公式計(jì)算出為41.6(天),詳細(xì)的計(jì)算公式我就不列出來(lái)了,因?yàn)楝F(xiàn)在都不會(huì)手動(dòng)計(jì)算啦,我們掌握它的應(yīng)用和意義更為重要。故我們解讀一下這里涉及的P(5)和P(99)的意義:P(5)的意義是該醫(yī)院有5%的細(xì)菌性痢疾治愈者的住院天數(shù)少于3天,或者說(shuō)有95%的細(xì)菌性痢疾治愈者的住院天數(shù)多于3天。P(99)的意義是絕大多數(shù)(99%)細(xì)菌性痢疾治愈者的住院天數(shù)少于41.6天。
利用頻數(shù)分布表計(jì)算百分位數(shù):例5: 某地118名鏈球菌咽喉炎患者的潛伏期頻數(shù)表見(jiàn)表3第(1)、(2)欄,求中位數(shù)及第25位、第75位百分位數(shù)。
中位數(shù)對(duì)應(yīng)的累計(jì)頻率是50%,對(duì)表中第(4)欄從上到下讀累計(jì)頻率,小于48天的累計(jì)頻率為44.9%,小于60天的累計(jì)頻率為65.3,故中位數(shù)所在組段為“48~”,n= 118(樣本總量),L50 = 48(P50所在組段的下界),i50= 12(組間距),f50=24(P50所在組段的樣本量), L =53(P50前一組段的累積頻數(shù)),帶入計(jì)算公式得:M=P50=48+12/24(118x50%-53)=51(天)
同樣的計(jì)算原理,我們可以計(jì)算出P25和P75:P25=36+12/32(118x25%-21)=39.2(天)P75= 60+12/18(118x75%-77)=67.7(天)
對(duì)于離散變量的頻數(shù)表資料,第X百分位數(shù)為Px所在變量值處的變量值,如對(duì)表2資料有P95=3;若每個(gè)組有幾個(gè)變量值,則必須根據(jù)原始數(shù)據(jù)用直接法求Px。
眾數(shù) 眾數(shù)(mode)是使用最少的集中趨勢(shì)指標(biāo),因?yàn)樗峁┑男畔⒘孔钌。眾?shù)只是指出分布中最常出現(xiàn)的取值,或者具有最高頻數(shù)的取值。
三、 計(jì)量資料的離散趨勢(shì)
離散(dispersion)趨勢(shì)指的是計(jì)量資料所有變量值偏離中心位置的程度,要全面刻畫(huà)一組數(shù)據(jù)(變量值)的數(shù)量特征,除計(jì)算平均指標(biāo)外,還必須計(jì)算反映離散程度的指標(biāo)。描述離散程度的常用指標(biāo)有極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差和變異系數(shù)。
極差(Range)
如前所述,極差即一組變量值的最大值與最小值之差。極差計(jì)算簡(jiǎn)便,概念清晰,因而應(yīng)用比較廣泛,如說(shuō)明傳染病、食物中毒的最長(zhǎng)、最短潛伏期等.
例6:試計(jì)算下面三組同齡男孩的身高(cm)均數(shù)和極差。甲組:90 95 100 105 110 乙組:96 98 100 102 104 丙組:96 99 100 101 104 計(jì)算得出:
比較以上三組數(shù)據(jù)發(fā)現(xiàn),雖然三組均數(shù)相等,但極差卻不盡相間,甲組5個(gè)兒童身高差異20 cm,乙組和丙組只有8 cm。我們可以很容易的得出結(jié)論,若僅比較三組的均數(shù),而不比較個(gè)體差異的大小,不能全面反映三組兒童身高。
用極差來(lái)描述數(shù)據(jù)的變異程度并不全面。僅能反映最大值與最小值的差值,而不論其他數(shù)值的情況。
四分位數(shù)間距
四分位數(shù)(quartile)是把全部變量值分為四部分的分位數(shù),即第1四分位數(shù)(QL=P25)、第2四分位數(shù)(M=P50)、第3四分位數(shù)(QU=P75)。四分位數(shù)間距(quartile range)是由第3四分位數(shù)和第1四分位數(shù)相減而得,記為QR。它一般和中位數(shù)起描述偏態(tài)分布資料的分布特征。
方差與標(biāo)準(zhǔn)差
方差(variance)也稱均方差(mean square deviation),反映組數(shù)據(jù)的平均離散水平。離均差平方和除以N得到了方差,總體方差用σ2。常與均數(shù)一起描述正態(tài)分布資料的分布特征。其計(jì)算公式如下:
例7:續(xù)例6,試計(jì)算下面三組同齡男孩的身高(cm)標(biāo)準(zhǔn)差。甲組:90 95 100 105 110 乙組:96 98 100 102 104 丙組:96 99 100 101 104 帶入公式得:S甲=7.9cm,S乙=3.2cm,S丙=2.9cm由于丙組的標(biāo)準(zhǔn)差較小,說(shuō)明組間變異程度較小,故可以認(rèn)為其均數(shù)的代表性較其他組要好。
變異系數(shù)
變異系數(shù)(Coefficient of variation)記為CV,多用于觀察指標(biāo)單位不同時(shí),如身高與體重的變異程度的比較;或均數(shù)相差較大時(shí),如兒童身高與成人身高變異程度的比較。其計(jì)算公式為:
例8:某地7歲男孩身高的均數(shù)為123.10 cm,標(biāo)準(zhǔn)差為4.71 cm;體重均數(shù)為22.92 kg,標(biāo)準(zhǔn)差為2.26kg。此處不能因?yàn)?.71>2.26,就說(shuō)身高的變異比體重要大,而要考慮到兩者的單位不同,無(wú)法直接比較,故采用變異系數(shù)來(lái)解決這類問(wèn)題,它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo),無(wú)單位。上述7歲男孩身高、體重的變異系數(shù)分別為:
通過(guò)比較,說(shuō)明該地7歲男孩體重的變異大于身高的變異,或者說(shuō)身高比體重的變異小。
總結(jié):在這一小節(jié)中,我們?cè)敿?xì)的談及了描述計(jì)量資料集中趨勢(shì)和離散趨勢(shì)的指標(biāo)。也談到了它們的應(yīng)用場(chǎng)所,總結(jié)起來(lái)就是“正態(tài)分布資料:均值±標(biāo)準(zhǔn)差;偏態(tài)分布資料:中位數(shù),四分位數(shù)間距”,在以后的學(xué)習(xí)中,我們看到文獻(xiàn)中的圖表,看到其描述的方式,就應(yīng)該迅速在腦海里反映出其對(duì)應(yīng)的資料的分布情況;反之亦然,見(jiàn)到不同分布的資料,我們應(yīng)該知道用那些指標(biāo)對(duì)其進(jìn)行描述。
如上圖文獻(xiàn)[Prevalence and related factors of chronic kidney disease (CKD) among long-lived individuals (LLI) over 95 years of age]中的表1,我們可以看到連續(xù)型變量使用(均數(shù)±標(biāo)準(zhǔn)差)的形式進(jìn)行統(tǒng)計(jì)描述;而分類變量使用的是構(gòu)成比的形式進(jìn)行描述。因?yàn)樵趯?shí)際工作和生活中,偏態(tài)分布的例子極少,而作者研究中僅用連續(xù)變量和分類變量區(qū)分變量類型,故未展示(中位數(shù),四分位間距)這一表現(xiàn)形式。
參考資料:
1.人民衛(wèi)生出版社《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》第4版 孫振球 徐勇勇 著2.中國(guó)人民大學(xué)出版社《白話統(tǒng)計(jì)學(xué)》第3版 蒂莫西.C.厄丹(Timothy C.Urdan)著,彭志文譯3.Zujun et al.,2015,Prevalence and related factors of chronic kidney disease (CKD) among long-lived individuals (LLI) over 95 years of age,Archives of Gerontology and Getratrics,Volume 60,Issue2,March–April 2015, Pages 354-358
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
-
李飛飛入選美國(guó)國(guó)家醫(yī)學(xué)院
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 全數(shù)會(huì)2024中國(guó)人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì)
-
精彩回顧立即查看>> OFweek 2024中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
10 BD新浪潮
- 1 南京殺出超級(jí)IPO:年入27億,華東第一
- 2 從巨額回購(gòu) 看石藥集團(tuán)的“三張”價(jià)值底牌
- 3 被華為刷屏的腦機(jī)接口芯片,有多前沿?
- 4 中國(guó)藥企出海的“PlanB”
- 5 星形膠質(zhì)細(xì)胞為阿爾茨海默病治療帶來(lái)可能
- 6 聯(lián)影醫(yī)療:貢獻(xiàn)超億元收入上演控制權(quán)迷局
- 7 慢下來(lái)的邁瑞醫(yī)療
- 8 石藥集團(tuán)的陽(yáng)謀
- 9 聯(lián)影醫(yī)療:原子公司變關(guān)聯(lián)方后或“藕斷絲連”
- 10 血管化器官芯片應(yīng)用前景廣闊
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市