一文总结5分干湿结合生信套路+作者经验

科研 话题的优秀回答者

今天要给大家拆解的文献是今年5月刚刚发表在Aging上的文章,影响因子5.515。

文章题目是Identification and validation of hub microRNAs dysregulated in esophageal squamous cellcarcinoma

从标题很容易看出本研究是常规的hub基因研究,但本研究之所以能发表在5分+上,我觉得一是文章研究的是microRNAs,有所新意;二是文章还做了点简单的实验对筛选出的两条microRNA进行了表型验证。

数据解构

挑——差异表达miRNA筛选

本文首先通过GEO数据库筛选食管癌差异表达microRNAs(miRNAs)。

作者选用了GSE114110和GSE43732两个数据集进行分析。值得一提的是,作者还利用R语言的limma包对数据集进行了标准化处理。作者设定的阈值为|log2FC|≥ 1和P < 0.05,由图E和F的火山图可以看出筛选出的差异表达miRNAs相比于平时我们筛选mRNA时是要相对少一些的。

作者使用的是limma包进行的差异表达分析,使用GEO数据库的在线工具GEO2R也能达到同样的目的。筛选到差异基因后,作者使用R语言VennDiagram包制作韦恩图,使用网站Draw Venn Diagrams (http://bioinformatics.psb.ugent.be/webtools/Venn/)也可做出类似的图。最终筛选得到3个上调的和5个下调的miRNAs。

此外再提一句,在分析多个数据集时,可以将多个数据集的数据合并分析,但是必须得先去掉批次效应。如果不想去进行去批次的操作,可以像这篇文章这样采用取交集的方式,这样也算是有一定道理的。

联——miRNA靶基因预测

miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)是一个经过实验验证的miRNA-靶基因相互作用数据库,作者利用这个数据库对8个差异表达的miRNA的靶基因进行了预测。3个上调的和5个下调的hub miRNAs总共分别预测出468和753个可能的靶基因。

除了miRTarBase网站外,常用的miRNA靶基因预测网站还有Targetscan、ENCORI、miRDB、miRWalk等。

圈——miRNA靶基因GO和KEGG富集分析

进一步地,作者对预测出468和753个可能的靶基因分别做了GO和KEGG富集分析。

本文中作者使用的是DAVID(https://david.ncifcrf.gov/) 网站,实际上GO和KEGG富集分析还可以用Metascape(https://metascape.org/gp/index.html#/main/step1)。

相比于DAVID,Metascape不但数据更新,还可以直接生成美观的图片。对于有R语言基础的小伙伴,还可以使用clusterProfiler包进行富集分析,并可利用ggplot2绘制气泡图。

联——PPI网络分析得到hub基因,miRNA-hub基因互作网络构建

作者又使用STRING数据库对预测出468和753个可能的靶基因分别作了蛋白蛋白互作(PPI)分析,并进一步地利用Cytoscape软件筛选得到hub基因各10个。然后对这20个基因做了GO和KEGG富集分析。本文作者将GO分析的三大类:生物过程(BP)、分子功能(MF)、细胞组分(CC)分开展示,并对靶基因、hub基因分别做富集分析,因此得到的图比较多。

随后,作者利用Cytoscape软件构建miRNA-hub基因网络。由于miR-196a-5p和miR-1-3p所关联的hub基因最多,作者进一步地利用miRNACancerMAP数据库分析了miR-196a-5p和miR-1-3p所涉及的信号通路。

miRNACancerMAP(http://cis.hku.hk/miRNACancerMAP/)是一个可以预测、构建癌症miRNA调节网络的在线工具,只需点击网站上方的Quick Search,输入想要研究的miRNA,即可得到分析结果。

靠——miRNAs预后价值分析

随后,作者利用利用TCGA数据库、细胞系以及临床样本验证了miR-196a-5p和 miR-1-3p的表达情况。并利用基于TCGA数据的starBase数据库对miR-196a-5p和miR-1-3p进行Kaplan-Meier生存分析,以评估其预后价值。

干湿结合

到这里其实这篇文章已经可以发表了,但最新的Aging已经不收纯生信文章了,要发5分必须补湿实验。

干湿结合的参考组合有:

1、生信+临床标本验证

2、生信+功能表型验证(细胞或者细胞+动物均可)

3、生信+临床+功能表型验证

4、生信+临床+功能+机制研究

这篇文章运用的是“生信+临床+功能表型验证”组合,作者做了一点实验来验证miR-196a-5p和miR-1-3p对食管癌细胞增殖和迁移的影响。所用实验为CCK-8、EdU和Transwell等常规实验技术,比较简单。这里作者只是用了miRNAmimics做实验,其实还可增加使用miRNA inhibitors的实验。

总结

到此全文就结束了,总结一下,作者先用GEO数据库筛选得到食管癌差异表达miRNAs(挑),然后利用筛选得到的8条miRNAs预测靶基因(联),并对靶基因进行富集分析(圈);进一步地在靶基因中筛选得到hub基因(联),并筛出两条与hub基因联系最多的miRNAs(联);最后对这两条miRNAs进行生存分析,来说明临床意义(靠),其实本文还可增加临床相关性分析,ROC曲线等分析进一步丰富内容。

此外,这篇文章还增加了一点湿实验的内容:利用细胞系和临床样本验证两条miRNA的表达情况(临床标本验证),并利用细胞实验验证其对食管癌细胞增殖迁移能力的影响(功能表型验证)。

整体来说,全文基本全部按照“挑、圈、联、靠”的生信套路来进行,所用技术以在线工具为主,适合初学者模仿。

最后再给大家归纳一下干湿结合研究套路模板(加粗的是本文所用的方法):

干:

挑:差异表达分析筛选目的基因

圈:GO/KEGG富集分析、GSEA富集分析、WGCNA网络分析、其他特殊分析(miRNA相关通路预测、免疫浸润等等)

联:蛋白蛋白互作(PPI)分析、miRNA交互作用、分子网络构建

靠:生存分析、临床相关系分析、单因素/多因素分析、差异表达预后分析、ROC曲线

湿:

1、临床标本验证(包括细胞系和临床样本)

2、功能表型验证(细胞或者细胞+动物均可)

3、临床+功能表型验证

4、临床+功能+机制研究

作者经验总结

关于生信文章的内在逻辑套路,酸菜老师已经用“挑圈联靠”四字箴言做了精妙的总结。对于本文“挑圈联靠”四个层面的解析,summer老师已经做了非常好的解读,不用我多说,建议大家先看完这一部分。做好这两步准备工作,咱们撸起袖子开聊。

返修文章的选题

首先我要感谢解螺旋《生信数据挖掘套路》这门课程。这门课程让我首次认识到生信文(套)章(路)的基本思路,让我理解了使用生信思维解决科研问题的基本框架。更值得一提的是,本课程适合没有任何R语言基础的小伙伴。你们可以在我的文章里看到大量借鉴课程中分析方法的地方。

大部分的生信文章,无论你做相对“低端”的hub基因还是相对“高端”的泛癌研究,都要挑选到合适的分子类型

这里面,我对大家的建议是,如果你有基础课题在研,那么请选择挖掘和你课题相同的分子类型。没有的话,当我没说哈。像我这样有基础研究课题(miRNA和食管鳞癌)在手的实验室顶级搬砖选手,我当然去选择挖掘食管鳞癌相关的miRNA数据。既然基础科研做的是食管鳞癌,那么肿瘤组织样本自然是有的,病理资料自然是统计的,miRNA逆转录好的cDNA自然是封印在冰箱里面等待我去召唤的。

关于最后的肿瘤功能学实验,其实完全可以同期去开展么,可能就是多加了几个实验组的事。即使不是同期实验,前面磨出来的实验经验也是文章顺利进行的保障。这都是非常省钱、省时间的策略。

目前,很多杂志都倾向于接受生信分析加实验验证的文章,补充的这些数据同样在文章返修的时候有着极大的助力,这点在后面会和大家分享。

数据集选择与整理

TCGA中食管癌的数据比较少,而且中国多发的食管癌类型是鳞癌。所以我选择了去GEO中挖掘食管鳞癌的数据集为文章的开端。当然数据集众多,最后能够完成数据处理,能够顺畅分析出合理结果的数据集组合其实是不多的。最后我选择了GSE114110和GSE43732这两个数据集来组合分析。

其实前期的芯片数据集的选择还是费了一些功夫的。所以,不是随便找两个芯片就是一篇文章,除非你运气好。不同平台的数据集进行交集分析,要想不被审稿人怼,要进行数据的标准化及差异分析后再取交集,或者去掉批次效应后合并分析,这些都是R语言的基础内容。本文中我采用取交集的方式。

利用各种在线数据库的相互验证

生信文章的展开过程,就是从一大堆分子中找到一小簇核心分子。你要证明寻找这一大堆分子的方法是正确的,还要证明这一小簇分子你是通过正确的手段找到的。以及后面要证明这一小簇分子是多么的重要(比如关联病人的预后),甚至在这小簇分子还要再做筛选。

后续验证的方法也需要通过多个数据库的相互佐证。这点肿瘤研究占有先天优势,因为TCGA和GEO衍生出来的二次分析数据库实在是太多了。这些二次分析工具的不断涌现也弥补了我们编程能力上的不足。所以,在一些工具没“死”之前,大家且用且珍惜,早发(灌)早完事。在靶基因的分析方面呢,可用的数据库如:Targetscan、miRTarBase、miRDB、miRWalk等,大家可以选择一个或者是多个数据库的预测结果取交集以增加结果的可靠性。

之后对靶基因的GO、Pathway分析的结果也验证了靶基因与肿瘤发展的极大关联性(因为富集到的通路都是和肿瘤进展显著相关的)。这样的结果就是在说,你看,我找的对,很合理的哇。

接下来我们,就分析出了miRNA靶基因中的hub基因了,同时对一小簇基因我们同样去进行了通路分析,结果表明与肿瘤进展明显相关。这样的结果还是在说,你看,我找的准,多合理呦。

接下来,顺理成章的构建miRNA-靶基因分子对。确定了核心中的核心miRNA:miR-196a-5p、miR-1-3p。除了他们能够结合最多的靶基因的理由之外,我还使用了miRNACancerMAP数据库进行分析。

miRNACancerMAP可以简单地分析miRNA的调节网络,类似于对miRNA做通路分析。结果证实了一些之前通路分析中涉及到的、肿瘤进展相关的重要的信号通路,例如MAPK、PI3K-AKT都与这两个miRNA相关联。这样的结果也是在说,你看,我找的妙,没问题呀。

后面就是常规的分子生物学、细胞生物学实验了,我也引用了点TCGA数据库里面的食管鳞癌数据进行佐证。

你们看,图6H显示miR-1-3p的生存分析没有意义。有点美中不足是不是?

不要慌,Pubmed上查一查,在讨论里面补充一下。这么好的分子,闭上眼睛都知道一定被研究得很彻底,轮不到我第一个吃螃蟹,最后我在讨论里面引用别人的文章来为自己背书。

总结和建议

1 总得来说,生信文章是要顺得下来的,每一步都要顺理成章。R语言分析的能力不足,那就用不同的在线数据库来为自己背书,多个数据库结果的相互佐证,能够极大地提高自己文章的可靠性。

2 你要问我怎么分析的这么顺畅,那是不顺的数据集被我放弃了,不然我不得发好几篇么。

3 还有我们可能遇到的情况是,可以用来分析的在线数据库众多,分析的结果有差异怎么办?比如数据库A、B、C的分析结果只有A的结果是我中意的怎么办?Follow Your Heart.生信文章,言之有理即可。那就跟数据库B、C说声:对不起,爱过。

4 最后我强烈建议各位小伙伴,有条件的情况下,尽可能的加入点分子生物学实验,最起码加入点样本验证。因为你加入的这些东西,可就是强有力的 “生信专家”嘴巴封堵器(大多数情况下)。基本上你在临床样本上验证出结果了,审稿专家一般不会对你的分析方法、算法什么的提出大的质疑,返修的时候会比较省心。

5 我是怎么知道这么多数据库,并且合理运用的?解螺旋生信全书听说过没?生信全书课程里面,先锋班优秀学员以及一些专业的生信老师针对常用的几十个数据库进行了少妇级别的详细介绍,强烈建议大家去听听,那样你就离5分文章不远了呦。

6 这条建议最重要:关于生信体系课的学习路径。参考小雪球老师在《应用数据库巧发SCI,再也不用满世界搜教程了》这篇推文中提到的,我这里搬运过来。

1. 对生信套路有个宏观认识:解螺旋免费课程中看-酸菜悟道生信–解构生信知识体系的顶层思维;

2. 学习拆解生信文章模块化套路规律:生信全书导学课;

3.从还原论的角度将一篇高分的零代码文章进行一一拆解:段位4 临床意义靠中零代码文章套路;

4. 按图索骥,用到啥学啥:把生信全书当作一部学习生信的字典,根据课程的介绍与说明,用到挑圈联靠四个模块中哪类工具,就学习哪类工具。

返修的爱恨情仇

当然,没有跟审稿人battle过的人生是不完整的。本文的发表也是一波三折的。

初次投稿后的一个月,我接到了第一次的审稿意见。果然,审稿人们没有对我的生信分析方法有任何的指导意见(文章毕竟有堵嘴神器)。但是其中的一个来自我国的审稿人(那英语味道太纯正了)比较认真负责,让我做深入的机制实验,另外要补充动物实验。Oh, my god,这也太丧心病狂了吧。当然了,我用着最狠的语气,说着最怂的话。其实怎么办呢,只能认怂叫dad,恭恭敬敬地按照他的意见对引言、讨论部分做了修改。

然而一个多月后我都没有收到任何意见。在和编辑沟通之后,我们确认这位专家跳票失联了。编辑自然是好编辑,本着一个专家不能少的原则,又为我量身寻觅了一位新的审稿专家,又送了我七条崭新的珍贵意见。同时这位专家对我按照第一条专家意见修改的部分内容提出了批判。我当时心里的情绪,不知道大家能不能体会。

最后在不断的修(ren)正(song)之后,文章终于被接受了,我终于长舒了一口气。不过在整个返修过程中,我的文章中没有补充任何数据,没有改过任何的图,都只是在文字上做修订。

转载请注明:解螺旋·临床医生科研成长平台

Measure

Measure

点击数:0