臨床基本信息當作變量輕松發(fā)2+分專業(yè)期刊
今天要和大家分享的是一篇2+分的學習筆記。這篇學習筆記使用了GEO數(shù)據(jù)庫的數(shù)據(jù),進行了差異表達基因的篩選、GO和KEGG富集分析、PPI網(wǎng)絡分析,確定了阿爾茨海默病(Alzheimer’s disease,AD)發(fā)病過程中關鍵的差異表達基因(DEGs)和通路,找到了AD的潛在生物標志物。
題目:阿爾茨海默病不同腦區(qū)異常調控基因和通路的鑒定
一、 研究背景
阿爾茨海默病(Alzheimer disease,AD)是一種慢性進行性神經退行性疾病。目前對AD的病理生理機制尚未完全了解。所以這篇學習筆記對阿爾茨海默病患者和正常對照的腦組織(包括海馬組織—HIP、顳回組織—TG、額回組織—FG和全血—WB)的可用基因表達譜進行了綜合分析。以確定阿爾茨海默病發(fā)病機制中的關鍵差異表達基因和途徑,獲得潛在的阿爾茨海默病診斷生物標志物,為今后研究中阿爾茨海默病診斷生物標志物和治療靶點的確定提供有價值的信息。
二、分析流程
三、結果解讀1. 鑒定差異表達基因(DEGs)
從GEO數(shù)據(jù)庫中篩選16個數(shù)據(jù)集,包括海馬組織(HIP)六個、顳回組織(TG)三個、額葉回組織(FG)三個和全血(WB)四個,詳細信息如表1所示。篩選標準為:
數(shù)據(jù)集為全基因組表達數(shù)據(jù)(數(shù)據(jù)完整)
數(shù)據(jù)庫來源于所需要研究的組織(數(shù)據(jù)與研究相關)
表1. 數(shù)據(jù)集的詳細信息
由于在HIP、TG和FG組織中的比較數(shù)據(jù)來源于多個數(shù)據(jù)集,所以需要對這些數(shù)據(jù)使用了log2轉換進行歸一化處理,并且使用R包 metaMA合并這些數(shù)據(jù)集。接著計算單個基因的p值,并使用Benjamini & Hochberg法計算多重比較校正的錯誤發(fā)現(xiàn)率(FDR),然后篩選出FDR < 0.01的基因,于是得到了DEGs。
為了驗證在這三個組織中,對照組和AD組的基因的表達是存在差異的,于是利用這些數(shù)據(jù)繪出在三個組織中的基因表達熱圖。
熱圖的紅色代表了上調表達,綠色代表了下調表達。以TG組織為例,可以看到在TG中表達的基因大致可以分成兩類:一類是上面一組,代表了對照組高表達而AD組低表達(左上紅色塊和右上綠色塊);一類是下面一組,代表了對照組低表達而AD組高表達(左下綠色塊和右下紅色塊)。
圖1. 在三個組織中的差異表達基因DEGs熱圖
從三個組織篩選得到的所有數(shù)據(jù)集中篩選出了325個DEGs。篩選標準為:FDR <0.01(FDR是指錯誤發(fā)現(xiàn)率,一般取FDR<0.01作為默認標準)。圖2中,三個組織樣本中的差異表達基因的交集即為3個組織樣本中表達均有差異的基因(上調的117個,下調的148個,總共325個)。
圖2. 篩選得到的上調和下調表達的DEGs
2. GO和KEGG富集分析
使用Gene codis 3軟件對未與全血樣本重合的325個DEGs進行富集分析(FDR < 0.05)。富集結果如下圖3所示。從圖中可以看到這些基因在與AD有關的信號通路中出現(xiàn)了顯著的富集,比如:在HIP中,參與粘附體連接的途徑;在FG中,Wnt信號通路;此外,MAPK信號通路也出現(xiàn)了明顯的富集。
圖3. KEGG富集分析結果
325個DEGs的GO和KEGG富集分析的詳細結果如下表所示(表2)。從GO分析結果可以看出這些基因在凋亡過程調節(jié)、凋亡過程和細胞死亡等基因功能出現(xiàn)了明顯的富集。
表2. GO和KEGG富集分析表
3. PPI網(wǎng)絡構建
利用BioGRID數(shù)據(jù)庫和Cytoscape軟件構建來PPI網(wǎng)絡,尋找核心調控基因(hub genes)。利用前20個上調和下調基因來構建PPI網(wǎng)絡。
小編以HIP為例(圖4)進行說明:圖中紅色的圓點代表了上調表達的基因,藍色的圓點代表了下調表達的基因,三角形基因代表了與其它基因連接度高的基因。PPI網(wǎng)絡篩選核心調控基因的原理也就是根據(jù)一個基因和其余基因的連接度(connectivity)的大小來篩選的,簡而言之就是圖中基因周圍線最多的基因就是我們需要尋找的核心調控基因。
圖4. 根據(jù)HIP的DEGs構建的PPI網(wǎng)絡
通過在HIP、TG、FG的PPI網(wǎng)絡中的基因進行連接度從高到低排序,可以得到以下結果:
在HIP的PPI網(wǎng)絡中,YAP1的連接度最高,與18個DEGs相互作用;
在TG的PPI網(wǎng)絡中,MAPK9的連接度最高,與16個DEGs相互作用;
在FG的PPI網(wǎng)絡中,GJA1的連接度最高,與6個DEGs相互作用。
4. 在全血樣本中尋找DEGs
為了尋找血液中的生物標志物,需要單獨對全血樣本進行差異表達基因DEGs的篩選,篩選方法同上。作者總共篩選到了2101個DEGs,并將HIP、TG、FG和WB共有的DEGs篩選出來,總共篩選到了40個DEGs(圖5)。
圖5. 全血標本中基因表達熱圖(A);利用韋恩圖篩選4個組織樣本中共有的差異表達基因(B)
進一步將四個組織樣本中共有的40個DEGs進行富集分析。這些DEGs在脂肪細胞因子信號通路、細胞因子-細胞因子受體相互作用和阿爾茨海默病相關通路出現(xiàn)了顯著的富集(圖6)。
圖6. 40個DEGs的富集結果
構建PPI網(wǎng)絡發(fā)現(xiàn),在WB的PPI網(wǎng)絡中,TNFRSF1A和MAP3K5的連接度最高,分別與152個和76個DEGs有相互作用(圖7)。
圖7. 根據(jù)WB的DEGs構建的PPI網(wǎng)絡
4. 驗證
這一部分分為兩步
第一步的思路是:使用驗證集進行DEGs的篩選,并與之前篩選得到的40個DEGs進行對比,驗證之前篩選得到的DEGs與驗證集是否一致,同時篩選HIP、TG、FG、WB以及驗證集中表達都有顯著差異的基因用于下一步驗證。
第一步的詳細過程為:利用腦組織HIP的驗證集GSE1297篩選到了35個DEGs,并比較這35個基因中31個常見的基因與之前篩選得到的40個DEGs的基因表達情況,發(fā)現(xiàn)它們的表達上調或下調情況一致。然后篩選了HIP、TG、FG、WB以及驗證集中表達都有顯著差異的基因14個(圖8),這些DEGs包括:
顯著上調表達的:ARHGEF40、WWC3、VCAN、SSH3、SAFB2、LRCH4、IL10RA、CDK13、BBX和SPSB3;
顯著下調表達的:MRPL15、COPS3、TXNDC9和RAD51C
圖8. 差異表達基因在正常組織和AD患者HIP組織中的表達情況(箱線圖左邊代表正常組織,右邊代表了AD患者的HIP組織)
第二步的思路是:對篩選的到的DEGs的診斷價值進行驗證。
第二步的詳細過程為:利用全血樣本W(wǎng)B的驗證集GSE63060和GSE63061對上述驗證過程中篩選得到的14個DEGs進行了ROC分析。ROC曲線由pROC繪出,使用AUC(ROC曲線下面積)以評估各DEG的診斷價值,當AUC值大于0.6時,認為DEG能夠區(qū)分病例和正常對照。結果發(fā)現(xiàn)在這14個DEGs中只有MRPL15、RAD51C、SAFB2、SSH3、TXNDC9、VCAN和WWC3能夠區(qū)分AD患者與健康對照的WB樣本(圖9)。
圖9. 7個DEGs的ROC曲線
小結
這篇學習筆記先是篩選出AD的HIP、TG和FG組織中的DEGs;然后進行GO和KEGG富集分析;接著構建了PPI網(wǎng)絡,發(fā)現(xiàn)YAP1、MAPK9和GJA1是HIP、TG和FG組織中的核心調控基因。為了在血液中尋找生物標志物,在WB、HIP、TG和FG找到了表達都有顯著差異的40個DEGs;下一步利用驗證集對40個DEGs進一步進行篩選,找到了14個DEGs;最后驗證了這14個DEGs的診斷價值,發(fā)現(xiàn)有7個DEGs可以作為診斷標志物。這篇學習筆記的套路簡單易懂,值得我們學習。
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
10 BD新浪潮
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市