加權基因共表達網路分析(weighted gene co-expression netwoek analysis, WGCNA)是用來描述不同樣本之間基因表達關聯模式的生物信息學分析方法,它可以挖掘在表達水平上高度相關的基因模塊,並分析模塊與特定性狀或表型之間的關係。在Pubmed上搜索關鍵詞「WGCNA」,可以發現2021年已經發表了相關文獻600多篇,可見其熱度依舊不減當年。那麼今天就給大家分享一篇只做了WGCNA還發到5分+的文章,題目為「Gene correlation network analysis to identify regulatory factors in sepsis」(雜誌:Journal of Translational Medicine;影響因子5.531),趕緊來學習蹭一波熱點吧!
分析流程:
分析結果
1、樣本統計學資料
GSE65682數據集中共包含686例膿毒症患者樣本,其中4例樣本由於數據異常被剔除,剩餘682例患者被納入本研究中,按感染部位分為肺炎膿毒症樣本192例、腹部膿毒症48例和其它膿毒症442例。這三類膿毒症患者在年齡、性別和死亡率上均沒有顯著差異(表1)。
2、一致性WGCNA及模塊識別
研究通過WGCNA共獲得27個一致性膿毒症模塊(Fig.1)。隨後研究對健康和膿毒症樣本進行了基因差異表達分析,並通過顯著性T值和差異倍數的中位數來定義上下調的模塊,比如黑色模塊是在膿毒症樣本中顯著上調的(Fig.2a-b)。此外,ARG1、CD177和MMP8等基因也被發現在膿毒症患者中顯著上調的,並且差異倍數最大(Fig.2c)。
接著研究識別了特異性膿毒症的模塊,分別是肺炎膿毒症模塊、腹部膿毒症模塊和其他膿毒症模塊,並分別進行了模塊保存分析,結果均顯示特異性膿毒症模塊有較好的模塊保存和結果遷移性(Fig.3)。隨後研究進一步探究了肺炎特異性膿毒症模塊是否也能在一致性模塊中被識別,結果顯示,每一個肺炎膿毒症模塊都至少有一個一致性模塊與其相對應(Fig.4)。比如紅色的肺炎模塊與黑色的一致性模塊相對應,並且有275個基因的重疊,說明這些模塊之間可能存在共同的生物學通路。
Fig.1
Fig.2
Fig.3
Fig.4
3、一致性膿毒症模塊與臨床性狀的相關性分析
隨後研究通過計算模塊特徵基因的表達與臨床特徵的Pearson相關係數,進一步探究了一致性模塊和臨床性狀的關係。結果顯示,黑色模塊與死亡率呈顯著負相關,即模塊表達值越高,死亡率就越低;而淡黃色模塊與死亡率呈顯著正相關(Fig.5)。
Fig.5
4、模塊功能研究
考慮到黑色模塊和淡黃色模塊與死亡率的相關係數最大,本研究進一步對這兩個模塊進行了生物功能富集分析。結果顯示,髓系白細胞介導免疫、白細胞脫顆粒和中性粒細胞介導免疫等生物功能共享了大量黑色模塊的特徵基因(Fig.6);而淡黃色模塊主要富集在轉化、含鹼基化合物分解過程、雜環分解過程和細胞氮化合物分解過程等生物學過程(Fig.7)。
Fig.6
Fig.7
5、轉錄因子富集分析
鑒於模塊是由共同表達的基因組成,研究猜測它們受轉錄因子等共同機制的調控,因此研究對關鍵模塊的轉錄因子進行了富集分析。結果發現,黑色模塊中共有93個基因被富集到了dbcorrdb_CEBPB_ENCSR000BQI_1_m1基序中,歸一化富集評分為5.53,而該基序又被直接注釋到轉錄因子CEBPB中,所以轉錄因子CEBPB被認為是黑色模塊的主要轉錄調控因子。而在淡黃色模塊中,共有12個基因在taipal_etv6_full_ccggaascggaagtn_repr和cisbp_M5425基序中富集,並被注釋到轉錄因子ETV6上,因此ETV6為淡黃色模塊的主要轉錄調控因子。
6、miRNA和靶基因的相互作用預測
接著研究從mirtarbase資料庫中確定了經過驗證的miRNA-模塊特徵基因的相互作用,其中1981個miRNA是黑色模塊的潛在調控因子,調控基因數量最多的前5個miRNA分別為hsa-miR-335-5p (n=59)、hsa-miR-26b-5p (n=57)、 has-miR-16-5p (n=44)、hsa-miR-17-5p (n=42)和has-miR-124-3p (n=38)。而893個miRNA被認為是淡黃色模塊的潛在調控因子,並且調控基因數量前5的miRNA分別為miR-16-5p (n=14)、hsa-miR-92a-3p (n=12)、hsa-miR-26b-5p (n=9)、hsa-miR-615-3p (n=9)和hsa-let-7b-5p (n=8)。
7、生存分析
為了進一步驗證與死亡率顯著相關的關鍵模塊與生存結果的相關性,研究採用反圖嵌入(DDRTree)方法將高維空間降至低維空間以保留樣本數據的固有結構,並使用K-means法將樣本進行聚類。結果顯示,在黑色模塊降維後的二維空間里,樣本被分為兩個聚類,這兩個聚類中模塊特徵基因的表達具有顯著差異,而KM結果證實兩個聚類的樣本在生存率上也具有顯著差異(Fig.8)。隨後研究對這兩個聚類中的樣本進行了基因差異表達分析,而這些基因被顯著富集在中性粒細胞脫顆粒、參與免疫反應的中性粒細胞活化、中性粒細胞激活和中性粒細胞介導的免疫等生物學功能上,並且聚類2具有更多的激活功能,包括髓細胞激活、細胞激活、白細胞激活和骨髓白細胞激活等(Fig.9)。
對淡黃色模塊進行降維和聚類後,樣本在二維空間中同樣被分為兩個聚類,而模塊特徵基因的表達也可以識別這兩個聚類,並且聚類2的生存概率顯著低於聚類1(Fig.10)。該結果進一步證實了淡黃色模塊與患者死亡結局的相關性。
Fig.8
Fig.9
Fig.10
亮點解析:
本研究只用了一個數據集的樣本就發到了5分+,小編替大家總結了以下關鍵點:1)深入挖掘公共資料庫,數據集在精不在多,本研究的數據集包含了802例樣本,即使經過篩選和剔除,有效樣本量仍然很大;2)利用好數據集中不同類型的樣本,以增加分析的多樣性,比如本研究既分析了一致性模塊,又分析了特異性模塊,最後再將總體和分類進行關聯,構建了完整的分析線;3)抓住一個點進行縱向的深入分析,比如本研究主要的關注點就是與死亡率顯著相關的一致性模塊,然後對這兩個模塊進行了生物功能富集分析、轉錄因子富集分析、miRNA調控預測、生存分析等,增加了文章的分析深度。希望通過這篇文章的學習,童鞋們可以有所收穫,有所突破。
歡迎大家私信或者留言探討哦~
原文鏈接:
Zhang Z, Chen L, Xu P, Xing L, Hong Y, Chen P. Gene correlation network analysis to identify regulatory factors in sepsis. J Transl Med. 2020 Oct 8;18(1):381.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7545567/