2020年非肿瘤单基因生信套路get4.5分+,怎么做到的?

科研 话题的优秀回答者

今天给大家带来一篇非肿瘤的4.5分+生信文章,只做了qRT-PCR验证的湿实验。很多人感慨非肿瘤的生信文章不好发,本文就给了我们一个很好的例子,非肿瘤的生信文章不仅能发,而且只用普通方法就可以发到4.5分+!

这篇文章于2020年在《Journal of cellular and molecular medicine》刊出,题目为“STAT1 and its related molecules as potential biomarkers in Mycobacterium tuberculosis infection”,全文共包含10个Figure和3个Table。

1.研究背景

结核病(TB)是一种严重危害人类健康的严重传染病,同时,免疫研究是目前的热点。作者把二者结合在一起,想要寻找参与结核感染期间免疫防御反应的关键分子,为结核病的治疗和进一步了解人体的免疫防御机制提供参考。

2.题目解读

首先来看题目二要素:疾病,结核分枝杆菌感染问题,揭示潜在的分子标志物

同时,题目上还出现了筛选的结果——STAT1基因及相关分子。这表明,本文可能不只是筛到了STAT1等功能基因,很可能还有其他类型的分子,毕竟是发到4.5分+的文章,如果只筛到STAT1就结束了,应该达不到这个分数。

然后,我们稍加停顿,想想如果自己是作者,会怎样去论证,再和原文进行对比,看看哪里有出入。长此以往,你会发现自己独立设计课题的能力在不知不觉间已明显提升。

3.数据解构

“挑”——找出差异表达基因

作者选取了GEO中GSE83456数据集进行分析,如Figure 1所示,火山图显示了PTB(肺结核)和HC(健康对照)样品中差异表达的基因,共192个。其中蓝色点代表PTB样品中显著下调的基因,有156个;橙色点代表显著上调的基因,有 36个。

“圈”——富集分析

作者使用GSEA工具对h.all.v 6.2.symbols.gmt [Hallmarks]数据库进行富集分析,发现该基因集中的PTB样品在干扰素-α/γ反应,和其他与免疫相关的功能中显著富集。

Figure 3A,把富集结果中的前9个生物学过程以条形图的形式列出;

“联”——生物学过程的互作网络

Figure 3B,使用Cytoscaped的ClueGo插件做出富集分析的生物过程的互作网络,多个色点表示它在多个生物过程中旋转。

“圈”——继续用别的软件进行富集分析

Figure 4,用Funrich软件根据P值和基因百分比绘制了10条生物途径的条形图,其中P值<0.05的生物途径具有统计学意义。结果同样表明,显著富集的生物学途径与免疫系统有关。

作者为了进一步验证前面得出的结果,又用IPA(Ingenuity Pathway Analysis,独创性通路分析)软件对192个差异表达基因进行核心分析。

如Figure 5所示,共包括干扰素信号传导途径、模式识别受体在识别细菌和病毒中的作用等8种典型途径,其中干扰素信号传导途径的活化分数最高;并且共有14个基因与该途径相关,包括STAT1,MX1,OAS1,SOCS1,STAT2,TAP1,IFI6,IFI35,

IFIT1,IFIT3,IFITM1,IFITM3,ISG15和JAK2。

作者不仅用IPA进行富集分析,还利用它进行了生物学功能分析,表明差异表达的基因总共与10个主要功能模块相关,包括炎症,抗病毒应答,免疫应答,活化,抗微生物应答,吞噬作用,趋化性,细胞运动,先天免疫应答和应答。

在这10个主要功能模块中,高度激活的细分功能模块是细胞吞噬作用的免疫应答,巨噬细胞的免疫应答,抗病毒应答和先天免疫应答。明显的抑制功能是大脑的免疫反应和脑炎。

上游分析显示,排名前五的上游调节器是STAT1(P值= 9.81E-61,z分数= 6.392),IRF7,IFNL1,IFNG和IFNA2,其中,前两个是转录调节因子,后三个是细胞因子。

“联”——STRING蛋白-蛋白互作网络

作者利用软件Cytoscape v.3.7.1制作了蛋白-蛋白互作网络,如Figure 7,不同颜色表示的是利用MCODE分析的不同基因簇。P值的显著性由节点的大小表示。P值越小,节点的直径越大。连线的颜色表示综合得分的值,范围是0.4到1,从浅到深。

这里我们要学习作者展示数据的方式,作者除了在Figure 7中展示互作网络图,还把图中的结果以表格的形式再次展示一遍,即Table 2,给人一种图表丰富的感(假)觉(象)。

之后作者把得分最高的cluster 1(基因簇1)挑出来,对其中的38个基因进行富集分析,发现它们主要参与防御反应和免疫系统相关功能(Table3)。

又对这38个基因进行了STRING分析,发现大多数分子都与干扰素相关。

如Figure 8所示,与干扰素信号相关的分子以红色表示,与干扰素α/β信号相关的分子以蓝色表示,与免疫系统中细胞因子信号传导相关的分子以绿色表示, 与干扰素-γ信号转导相关的分子以黄色着色。除了STRING分析,作者还进行了Network分析以验证结果,图中涉及免疫系统细胞因子信号传导的分子用红色标出。

很多人做到功能基因这里是不是就会停下来啦,但作者没有结束,他们继续找了功能基因相关的miRNA,这是这篇文章能够上到4分的重要原因。

刚刚Figure 8中提到,作者专门用绿色标注出与免疫系统中细胞因子信号传导相关的基因,在Figure9中,作者利用Cytoscape制作了这些基因(包括STAT1在内一共7个)与其靶向的miRNA之间的互作网络图。此图中基因被标为蓝色,miRNA为红色,同时靶向两个以上基因的miRNA为绿色。

Figure 8中与细胞因子相关的基因远多于7个,很显然,在Figure 9中,作者只是把较好的结果展示出来,别的没有呈现。所以生信也是有工作量的,通过反复调试,才能得到好看的结果图。

这里作者又做了一个很聪(讨)明(巧)的事情,把上图中同时与2个基因互作的miRNA(绿色小球)又列了个表格,展示出来(Table 4)。

这么多靶基因,作者为何单单把STAT1找出来,并且写到标题的首位呢?别急,咱们继续往下看。

作者对这9个miRNA,继续找了和它们有可能互作的circRNA,发现只有miRNA-223-3p和miRNA-448可以预测这9个miRNA中相应的上游circRNA,分别为SAMD8_hsa_circRNA994和TWF1_hsa_circRNA9897。而miRNA-223-3p和miRNA-448的共同靶基因是STAT1,所以STAT1被放在一个十分重要的位置上

接着,作者对miRNA-223-3p和miRNA-448进行qRT-PCR检测(Figure 10),发现二者确实在结核患者中低表达,这和STAT1高表达相对应,由此可推测,在结核免疫中可能存在STAT1-miRNA-circRNA这样一种信号转导机制,有兴趣的研究人员可对这条机制做进一步的实验验证。同时,由于做了qRT-PCR,排除了只有生信没有湿实验,引争议的诟病。

总结

酸菜大大总结的生信文章套路是“挑圈联靠”,非肿瘤生信文章一般没有“靠”——临床分析这一部分,因为很难得到临床相关的数据。没有临床的生信文章,挑圈联要尽可能地都用上,本文就是如此。而且基因富集分析这个部分,用了GSEA, DAVID, Funrich 和 IPA一共4种工具,不同工具背后的算法有所不同,能够起到相互验证的效果。

作者在展示数据时,会把figure中比较重要的结果,以table的形式再较为详细地列一遍,给人一种图表丰富的感觉,这点在我们数据较少时,可以借鉴。

最后,之所以能发到4.5分,是因为作者通过GSE83456预测到功能基因STAT1在结核患者中高表达之后,又预测到STAT1(mRNA)-miRNA-circRNA的互作链,为后续研究提供了很好的切入点。其实这篇文章现在发出来挺可惜的,往后进行深入的实验验证,会是一篇极好的文章,也许作者团队正在进行实验验证;也许做了实验,和预期不同;也许是实验室条件达不到,或者作者着急毕业。总之,有兴趣的同学可以给作者发个email,询问这个idea 的后续情况。

看到这里,你有什么想法了吗?以后通过生信预测到一个功能基因之后,可以继续找下相关的miRNA,还可以继续找下与miRNA潜在互作的circRNA,这样文章的档次就能瞬间提升啦~

Measure

Measure

点击数:0