加权基因共表达网络分析(weighted gene co-expression netwoek analysis, WGCNA)是用来描述不同样本之间基因表达关联模式的生物信息学分析方法,它可以挖掘在表达水平上高度相关的基因模块,并分析模块与特定性状或表型之间的关系。在Pubmed上搜索关键词“WGCNA”,可以发现2021年已经发表了相关文献600多篇,可见其热度依旧不减当年。那么今天就给大家分享一篇只做了WGCNA还发到5分+的文章,题目为“Gene correlation network analysis to identify regulatory factors in sepsis”(杂志:Journal of Translational Medicine;影响因子5.531),赶紧来学习蹭一波热点吧!
分析流程:
分析结果
1、样本统计学资料
GSE65682数据集中共包含686例脓毒症患者样本,其中4例样本由于数据异常被剔除,剩余682例患者被纳入本研究中,按感染部位分为肺炎脓毒症样本192例、腹部脓毒症48例和其它脓毒症442例。这三类脓毒症患者在年龄、性别和死亡率上均没有显著差异(表1)。
2、一致性WGCNA及模块识别
研究通过WGCNA共获得27个一致性脓毒症模块(Fig.1)。随后研究对健康和脓毒症样本进行了基因差异表达分析,并通过显著性T值和差异倍数的中位数来定义上下调的模块,比如黑色模块是在脓毒症样本中显著上调的(Fig.2a-b)。此外,ARG1、CD177和MMP8等基因也被发现在脓毒症患者中显著上调的,并且差异倍数最大(Fig.2c)。
接着研究识别了特异性脓毒症的模块,分别是肺炎脓毒症模块、腹部脓毒症模块和其他脓毒症模块,并分别进行了模块保存分析,结果均显示特异性脓毒症模块有较好的模块保存和结果迁移性(Fig.3)。随后研究进一步探究了肺炎特异性脓毒症模块是否也能在一致性模块中被识别,结果显示,每一个肺炎脓毒症模块都至少有一个一致性模块与其相对应(Fig.4)。比如红色的肺炎模块与黑色的一致性模块相对应,并且有275个基因的重叠,说明这些模块之间可能存在共同的生物学通路。
Fig.1
Fig.2
Fig.3
Fig.4
3、一致性脓毒症模块与临床性状的相关性分析
随后研究通过计算模块特征基因的表达与临床特征的Pearson相关系数,进一步探究了一致性模块和临床性状的关系。结果显示,黑色模块与死亡率呈显著负相关,即模块表达值越高,死亡率就越低;而淡黄色模块与死亡率呈显著正相关(Fig.5)。
Fig.5
4、模块功能研究
考虑到黑色模块和淡黄色模块与死亡率的相关系数最大,本研究进一步对这两个模块进行了生物功能富集分析。结果显示,髓系白细胞介导免疫、白细胞脱颗粒和中性粒细胞介导免疫等生物功能共享了大量黑色模块的特征基因(Fig.6);而淡黄色模块主要富集在转化、含碱基化合物分解过程、杂环分解过程和细胞氮化合物分解过程等生物学过程(Fig.7)。
Fig.6
Fig.7
5、转录因子富集分析
鉴于模块是由共同表达的基因组成,研究猜测它们受转录因子等共同机制的调控,因此研究对关键模块的转录因子进行了富集分析。结果发现,黑色模块中共有93个基因被富集到了dbcorrdb_CEBPB_ENCSR000BQI_1_m1基序中,归一化富集评分为5.53,而该基序又被直接注释到转录因子CEBPB中,所以转录因子CEBPB被认为是黑色模块的主要转录调控因子。而在淡黄色模块中,共有12个基因在taipal_etv6_full_ccggaascggaagtn_repr和cisbp_M5425基序中富集,并被注释到转录因子ETV6上,因此ETV6为淡黄色模块的主要转录调控因子。
6、miRNA和靶基因的相互作用预测
接着研究从mirtarbase数据库中确定了经过验证的miRNA-模块特征基因的相互作用,其中1981个miRNA是黑色模块的潜在调控因子,调控基因数量最多的前5个miRNA分别为hsa-miR-335-5p (n=59)、hsa-miR-26b-5p (n=57)、 has-miR-16-5p (n=44)、hsa-miR-17-5p (n=42)和has-miR-124-3p (n=38)。而893个miRNA被认为是淡黄色模块的潜在调控因子,并且调控基因数量前5的miRNA分别为miR-16-5p (n=14)、hsa-miR-92a-3p (n=12)、hsa-miR-26b-5p (n=9)、hsa-miR-615-3p (n=9)和hsa-let-7b-5p (n=8)。
7、生存分析
为了进一步验证与死亡率显著相关的关键模块与生存结果的相关性,研究采用反图嵌入(DDRTree)方法将高维空间降至低维空间以保留样本数据的固有结构,并使用K-means法将样本进行聚类。结果显示,在黑色模块降维后的二维空间里,样本被分为两个聚类,这两个聚类中模块特征基因的表达具有显著差异,而KM结果证实两个聚类的样本在生存率上也具有显著差异(Fig.8)。随后研究对这两个聚类中的样本进行了基因差异表达分析,而这些基因被显著富集在中性粒细胞脱颗粒、参与免疫反应的中性粒细胞活化、中性粒细胞激活和中性粒细胞介导的免疫等生物学功能上,并且聚类2具有更多的激活功能,包括髓细胞激活、细胞激活、白细胞激活和骨髓白细胞激活等(Fig.9)。
对淡黄色模块进行降维和聚类后,样本在二维空间中同样被分为两个聚类,而模块特征基因的表达也可以识别这两个聚类,并且聚类2的生存概率显著低于聚类1(Fig.10)。该结果进一步证实了淡黄色模块与患者死亡结局的相关性。
Fig.8
Fig.9
Fig.10
亮点解析:
本研究只用了一个数据集的样本就发到了5分+,小编替大家总结了以下关键点:1)深入挖掘公共数据库,数据集在精不在多,本研究的数据集包含了802例样本,即使经过筛选和剔除,有效样本量仍然很大;2)利用好数据集中不同类型的样本,以增加分析的多样性,比如本研究既分析了一致性模块,又分析了特异性模块,最后再将总体和分类进行关联,构建了完整的分析线;3)抓住一个点进行纵向的深入分析,比如本研究主要的关注点就是与死亡率显著相关的一致性模块,然后对这两个模块进行了生物功能富集分析、转录因子富集分析、miRNA调控预测、生存分析等,增加了文章的分析深度。希望通过这篇文章的学习,童鞋们可以有所收获,有所突破。
欢迎大家私信或者留言探讨哦~
原文链接:
Zhang Z, Chen L, Xu P, Xing L, Hong Y, Chen P. Gene correlation network analysis to identify regulatory factors in sepsis. J Transl Med. 2020 Oct 8;18(1):381.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7545567/