BMC|AI與人工巡檢 誰更適用于數(shù)據(jù)質(zhì)量評估?
導(dǎo)讀
與人工手動巡檢相比,決策樹算法不僅能發(fā)現(xiàn)更多的數(shù)據(jù)問題,也能更好地評價數(shù)據(jù)問題對CDSS的性能影響。
醫(yī)療數(shù)據(jù)質(zhì)量(DQ)影響著臨床決策支持系統(tǒng)(CDSS)的性能,也是實現(xiàn)數(shù)據(jù)復(fù)用的重要因素。因此,通過數(shù)據(jù)質(zhì)量評估發(fā)現(xiàn)問題、管理問題是釋放數(shù)據(jù)價值的關(guān)鍵,但目前國內(nèi)外仍缺乏各應(yīng)用場景所需數(shù)據(jù)的質(zhì)量評價方法與評估標(biāo)準(zhǔn),增加了數(shù)據(jù)質(zhì)量評估工作的復(fù)雜性與挑戰(zhàn)性。
近期,一項發(fā)表在BMC Medical Informatics and Decision Making的研究顯示,利用機(jī)器學(xué)習(xí)算法不僅能高效評價數(shù)據(jù)質(zhì)量,也可挖掘校驗數(shù)據(jù)質(zhì)量的適用規(guī)則,以確定數(shù)據(jù)集是否適用于特定應(yīng)用場景。
01—
聚焦數(shù)據(jù)問題及其對CDSS預(yù)測的影響
設(shè)計三大研究步聚
由于不同的AI應(yīng)用對底層數(shù)據(jù)的需求不同,為確定特定場景的數(shù)據(jù)質(zhì)量評價方法與標(biāo)準(zhǔn),傳統(tǒng)的做法是研究既有的質(zhì)量評估框架、咨詢專家等,而該研究旨在評估機(jī)器學(xué)習(xí)算法在數(shù)據(jù)質(zhì)量評估中的適用性,以減少對專家意見與人工操作的依賴,探索新型數(shù)據(jù)治理方法。
該研究流程共設(shè)計了“數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)質(zhì)量評估(DQA)—機(jī)器學(xué)習(xí)”三大步驟(圖1),其中在數(shù)據(jù)準(zhǔn)備階段,研究人員首先虛構(gòu)了一個基于患者病史數(shù)據(jù)進(jìn)行心臟病風(fēng)險預(yù)測的CDSS場景,預(yù)先定義輸入數(shù)據(jù)的質(zhì)量如何影響CDSS預(yù)測性能,以評估通過機(jī)器學(xué)習(xí)算法獲得的數(shù)據(jù)規(guī)則是否正確。
圖1 研究流程設(shè)計
其后,研究人員使用開源的模擬數(shù)據(jù)生成器生成了10500個符合openEHR規(guī)范的數(shù)據(jù)組合,每個組合代表一個病例,將其不等分配至20個虛擬醫(yī)院,數(shù)據(jù)儲存于openEHR中。這些數(shù)據(jù)根據(jù)文獻(xiàn)知識預(yù)先設(shè)定了不同類型的質(zhì)量問題,例如,“缺失血壓測量記錄”是明顯的數(shù)據(jù)問題,會使CDSS預(yù)測性能大打折扣;而“心率測量次數(shù)少于10”作為次要性問題,只讓CDSS性能略微降低。
由于機(jī)器學(xué)習(xí)算法模型訓(xùn)練需用到帶標(biāo)注的數(shù)據(jù)集,研究人員同時從數(shù)據(jù)儲存庫中生成不同數(shù)據(jù)問題對應(yīng)的CDSS預(yù)測準(zhǔn)確率,并對預(yù)測結(jié)果進(jìn)行多次驗證,確認(rèn)無誤后作為結(jié)果數(shù)據(jù)添加到數(shù)據(jù)集中。
在“數(shù)據(jù)質(zhì)量評估”(CAQ)階段,研究人員使用了開源工具openCQA進(jìn)行質(zhì)量評估,根據(jù)每個病例、每家虛擬醫(yī)院的不同數(shù)據(jù)變量,生成半自動的測量方法(MM),例如,測量某病例所有收縮壓測量值的平均值和醫(yī)院整體平均值。并將各測量結(jié)果數(shù)據(jù)集導(dǎo)出,一是用于機(jī)器學(xué)習(xí)算法訓(xùn)練,二是使用openCQA的GUI檢查預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題是否“可視”。
在GUI視圖中,研究人員找出了病例存在的數(shù)據(jù)質(zhì)量問題,同時評估其對CDSS預(yù)測產(chǎn)生的影響。如圖2所示,第一個表格標(biāo)黃的行列表示“缺失血壓值記錄的病例”,第二個表格則相應(yīng)地標(biāo)出了該問題導(dǎo)致的CDSS成功值為“0”。由此合理假設(shè)研究人員可以識別其中的關(guān)聯(lián),從而推導(dǎo)出該CDSS場景下的數(shù)據(jù)質(zhì)控規(guī)則,與機(jī)器學(xué)習(xí)算法推導(dǎo)的結(jié)果進(jìn)行比較。
圖2 在GUI中檢查結(jié)果
為確保研究結(jié)果的合理性,3名研究人員中只由研究人員ET全程參與研究并檢查GUI的結(jié)果,另外2人則只參與了第三階段的機(jī)器學(xué)習(xí)研究,并對預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題一無所知。
02—
人工手動巡檢與AI結(jié)果對比
“從應(yīng)用結(jié)果倒推”
在機(jī)器學(xué)習(xí)研究階段,研究人員選擇了機(jī)器學(xué)習(xí)算法中的決策樹(DTs)算法,因為DTs易于解釋,且對數(shù)據(jù)沒有歸一化等特殊要求;然后使用DAQ階段產(chǎn)生的數(shù)據(jù)集進(jìn)行算法模型訓(xùn)練。而DTs應(yīng)用包括兩個方面,一是從所有虛擬醫(yī)院的數(shù)據(jù)中確定測量結(jié)果;二是對每個病例的數(shù)據(jù)測量結(jié)果進(jìn)行匯總。
應(yīng)用DTs目的是通過解釋“樹”,從決策節(jié)點上推導(dǎo)影響CDSS性能的數(shù)據(jù)問題規(guī)則。下圖3是從決策樹中分離出來的示例,這9018個病例(占病例總數(shù)的88%)的CDSS預(yù)測準(zhǔn)確率為60%,根據(jù)每個病例有無收縮壓測量值分為兩組,一組病例無測量值(191例),CDSS準(zhǔn)確率為0;另一組病例有一個或多個測量值(8827例),CDSS預(yù)測準(zhǔn)確率為62%。
圖3 決策樹示例
這個示例提示了數(shù)據(jù)質(zhì)量問題及其帶來的影響,也說明了研究人員采用“從應(yīng)用結(jié)果倒推”的方式進(jìn)行數(shù)據(jù)質(zhì)量問題巡查。
由于研究人員ET了解預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題及對CDSS預(yù)測的影響,能夠?qū)Ts提取的規(guī)則與實際問題進(jìn)行比較。在該研究中他執(zhí)行了3次機(jī)器學(xué)習(xí)工作流程,隨之也作出了3個DTs應(yīng)用評價;而另外兩名研究人員只憑決策樹解釋推導(dǎo)出一個規(guī)則列表,并將規(guī)則列表與實際數(shù)據(jù)問題評價標(biāo)準(zhǔn)進(jìn)行比較,得出比較結(jié)果“Control”,如圖4所示。
圖4 數(shù)據(jù)質(zhì)量評估結(jié)果對比
圖4作為該研究的最終結(jié)果,其中DQ-issue代表實際存在的質(zhì)量問題,GUI代表研究人員ET手動巡檢的結(jié)果,用Good、Weak等評價巡檢結(jié)果中覆蓋的實際數(shù)據(jù)問題數(shù)及對CDSS的影響;Outcome 1、Outcome 2、Outcome 3則是他對決策樹算法的3個評價;Control中的 “Yes”代表另外兩名研究人員都將該數(shù)據(jù)問題作為CDSS的影響因素,“yes/no”表示他們中只有一人獲得這種認(rèn)知。
根據(jù)圖4的多方比較顯示,19個實際存在的數(shù)據(jù)問題,11/12個能在決策樹算法中“捕捉”,其中至少9個問題能被兩位“不知情”的研究人員從樹解釋中推導(dǎo)出來;此外,由于決策樹算法較手動巡檢發(fā)現(xiàn)了更多的數(shù)據(jù)問題,且能更好地展示對CDSS性能的影響,所以獲得的評價也更優(yōu)。反映其能作為手動巡檢的有效補(bǔ)充工具,助力建立特定CDSS場景所需數(shù)據(jù)集的評價標(biāo)準(zhǔn)(例如應(yīng)具備哪些數(shù)據(jù)變量,每個變量的閾值等),通過數(shù)據(jù)治理有效提高CDSS預(yù)測性能。
研究人員表示,此次研究目的并非評價機(jī)器學(xué)習(xí)算法性能,而是考量其在數(shù)據(jù)質(zhì)量評估工作中的適用性。
參考文獻(xiàn):
Tute Erik,Ganapathy Nagarajan,Wulff Antje. A data driven learning approach for the assessment of data quality[J]. BMC Medical Informatics and Decision Making,2021,21(1):
——本公眾號所有圖文,未經(jīng)許可,嚴(yán)禁轉(zhuǎn)載!
如需轉(zhuǎn)載,請?zhí)崆芭c編輯聯(lián)系取得轉(zhuǎn)載許可。否則視為侵權(quán)!
圖片新聞
最新活動更多
-
11月19日立即報名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計,易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會暨展覽會
-
精彩回顧立即查看>> 全數(shù)會2024中國人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會
-
精彩回顧立即查看>> OFweek 2024中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市