结合2020年5月5+SCI,一文总结干湿结合生信套路,史上最全

结合2020年5月5+SCI,一文总结干湿结合生信套路,史上最全

科研 话题的优秀回答者

今天要给大家拆解的文献是今年5月刚刚发表在Aging上的文章,影响因子5.515。

文章题目是Identification and validation of hub microRNAs dysregulated in esophageal squamous cellcarcinoma

从标题很容易看出本研究是常规的hub基因研究,但本研究之所以能发表在5分+上,我觉得一是文章研究的是microRNAs,有所新意;二是文章还做了点简单的实验对筛选出的两条microRNA进行了表型验证。

数据解构

挑——差异表达miRNA筛选

本文首先通过GEO数据库筛选食管癌差异表达microRNAs(miRNAs)。作者选用了GSE114110和GSE43732两个数据集进行分析。

值得一提的是,作者还利用R语言的limma包对数据集进行了标准化处理。

作者设定的阈值为|log2FC|≥ 1和P < 0.05,由图E和F的火山图可以看出筛选出的差异表达miRNAs相比于平时我们筛选mRNA时是要相对少一些的。

作者使用的是limma包进行的差异表达分析,使用GEO数据库的在线工具GEO2R也能达到同样的目的。筛选到差异基因后,作者使用R语言VennDiagram包制作韦恩图,使用网站Draw Venn Diagrams (http://bioinformatics.psb.ugent.be/webtools/Venn/)也可做出类似的图。最终筛选得到3个上调的和5个下调的miRNAs。

此外再提一句,在分析多个数据集时,可以将多个数据集的数据合并分析,但是必须得先去掉批次效应。如果不想去进行去批次的操作,可以像这篇文章这样采用取交集的方式,这样也算是有一定道理的。

联——miRNA靶基因预测

miRTarBasehttp://mirtarbase.mbc.nctu.edu.tw/php/index.php)是一个经过实验验证的miRNA-靶基因相互作用数据库,作者利用这个数据库对8个差异表达的miRNA的靶基因进行了预测。3个上调的和5个下调的hub miRNAs总共分别预测出468和753个可能的靶基因。

除了miRTarBase网站外,常用的miRNA靶基因预测网站还有Targetscan、ENCORI、miRDB、miRWalk等。

圈——miRNA靶基因GO和KEGG富集分析

进一步地,作者对预测出468和753个可能的靶基因分别做了GO和KEGG富集分析。

本文中作者使用的是DAVID(https://david.ncifcrf.gov/) 网站,实际上GO和KEGG富集分析还可以用Metascape(https://metascape.org/gp/index.html#/main/step1)。相比于DAVID,Metascape不但数据更新,还可以直接生成美观的图片。对于有R语言基础的小伙伴,还可以使用clusterProfiler包进行富集分析,并可利用ggplot2绘制气泡图。

联——PPI网络分析得到hub基因,miRNA-hub基因互作网络构建

作者又使用STRING数据库对预测出468和753个可能的靶基因分别作了蛋白蛋白互作(PPI)分析,并进一步地利用Cytoscape软件筛选得到hub基因各10个。然后对这20个基因做了GO和KEGG富集分析。

本文作者将GO分析的三大类:生物过程(BP)、分子功能(MF)、细胞组分(CC)分开展示,并对靶基因、hub基因分别做富集分析,因此得到的图比较多。

随后,作者利用Cytoscape软件构建miRNA-hub基因网络。由于miR-196a-5p和miR-1-3p所关联的hub基因最多,作者进一步地利用miRNACancerMAP数据库分析了miR-196a-5p和miR-1-3p所涉及的信号通路。

miRNACancerMAP(http://cis.hku.hk/miRNACancerMAP/)是一个可以预测、构建癌症miRNA调节网络的在线工具,只需点击网站上方的Quick Search,输入想要研究的miRNA,即可得到分析结果。

靠——miRNAs预后价值分析

随后,作者利用利用TCGA数据库、细胞系以及临床样本验证了miR-196a-5p和 miR-1-3p的表达情况。并利用基于TCGA数据的starBase数据库对miR-196a-5p和miR-1-3p进行Kaplan-Meier生存分析,以评估其预后价值。

干湿结合

到这里其实这篇文章已经可以发表了,但最新的Aging已经不收纯生信文章了,要发5分必须补湿实验。

干湿结合的参考组合有:

1、生信+临床标本验证

2、生信+功能表型验证(细胞或者细胞+动物均可)

3、生信+临床+功能表型验证

4、生信+临床+功能+机制研究

这篇文章运用的是“生信+临床+功能表型验证”组合,作者做了一点实验来验证miR-196a-5p和miR-1-3p对食管癌细胞增殖和迁移的影响。所用实验为CCK-8、EdU和Transwell等常规实验技术,比较简单。这里作者只是用了miRNAmimics做实验,其实还可增加使用miRNA inhibitors的实验。

总结

作者先用GEO数据库筛选得到食管癌差异表达miRNAs(挑);

然后利用筛选得到的8条miRNAs预测靶基因(联);

并对靶基因进行富集分析(圈);

进一步地在靶基因中筛选得到hub基因(联);

并筛出两条与hub基因联系最多的miRNAs(联);

最后对这两条miRNAs进行生存分析,来说明临床意义(靠),

其实本文还可增加临床相关性分析,ROC曲线等分析进一步丰富内容。

此外,这篇文章还增加了一点湿实验的内容:利用细胞系和临床样本验证两条miRNA的表达情况(临床标本验证),并利用细胞实验验证其对食管癌细胞增殖迁移能力的影响(功能表型验证)。

整体来说,全文基本全部按照“挑、圈、联、靠”的生信套路来进行,所用技术以在线工具为主,适合初学者模仿。

最后再给大家归纳一下干湿结合研究套路模板(加粗的是本文所用的方法):

干:

挑:差异表达分析筛选目的基因

圈:GO/KEGG富集分析、GSEA富集分析、WGCNA网络分析、其他特殊分析(miRNA相关通路预测、免疫浸润等等)

联:蛋白蛋白互作(PPI)分析、miRNA交互作用、分子网络构建

靠:生存分析、临床相关系分析、单因素/多因素分析、差异表达预后分析、ROC曲线

湿:

1、临床标本验证(包括细胞系和临床样本)

2、功能表型验证(细胞或者细胞+动物均可)

3、临床+功能表型验证

4、临床+功能+机制研究

本文首发于“ 挑圈联靠”微信公众号

转载请注明:解螺旋·临床医生科研成长平台。

点击数:0

TCGA数据库挖掘分析,这个网站好用到爆!

TCGA数据库挖掘分析,这个网站好用到爆!

TCGA数据库挖掘分析,这个网站好用到爆!

2017-10-21 11:14
来源:小张聊科研

关于数据库挖掘和分析,我们分别介绍过GEO和TCGA数据分析的多个工具了(如gene vesitigator,GEO2R,KM plotter,oncolnc,CRN等等),也准备了5分生信文章的还原(免费课堂:不想做实验,如何发一篇5分的文章?),依凡还专门录制了生物信息学数据库挖掘的系列课程,大家也可以单击文末原文链接直接购买学习和使用。

今天我们就来为大家介绍一个进行TCGA数据库数据挖掘的网站,简单易用。

UALCAN:http://ualcan.path.uab.edu/index.html

在主页右上角有一个Analysis选项,我们直接单击就可以打开下面的界面:

第一个功能:Scan by genes。可以直接查询多个基因在肿瘤里的表达和与预后的关系,比如我们输入10个基因:

然后单击Explore就可以打开新界面:

这里我们看到分析的链接有GEx profile和Survival Profile,说的分别是基因的表达情况和基因表达与预后的关系,而后面的HPRD,Genecards等是相关的数据库,我们先看第一个基因BMP4的GEx Profile:

大家看到左侧是肿瘤类型,右侧是分组类型,在上图中显示的红绿箱式图就是左侧的乳腺癌(Breast invasive carcinoma),分组标准是Major Cancer Stages,显示的就是BMP4基因在正常组和原发乳腺癌(Primary Tumor)组的差异和统计结果。

当然,我们可以选择其它肿瘤,比如肝癌(Liver hepatocellular carcinoma):

也可以选择分组标准,比如分期(Individual cancer stages):

再比如乳腺癌的亚型:

当然,我们还可以看到基因与患者预后的结果关系,通过一开始界面的survival profile:

或者Gex Profile界面的Visualize survial Plot都可以打开:

打开后的界面:

首先出现的是根据BMP4表达水平进行的生存曲线,我们可以直接下载为pdg格式用AI编辑,也可以继续单击next或者下面的页码(1,2,3,4,5)查看其它分类情况,比如表达和种族(Race):

表达和肿瘤分型:

等等,同样可以下载使用。

下面,我们再看第二个功能:Scan by gene Classes。在这个界面:

我们看到有各种类型的gene class,有的是蛋白类型,比如激酶kinase,泛素连接酶,蛋白酶,磷酸酶,还有根据功能划分的,比如细胞周期,凋亡,转移,还有通路的,比如p53,Hedgehog通路等。

也就是说,我们可以直接查看这一类基因在TCGA中的数据情况,这里我们以P53通路为例,选好后直接单击explore,这是我们看到的结果:

左侧是基因名,中间是基因在不同肿瘤中的表达和预后结果,最后是数据库链接,最上面的search for genes还可以直接对这个表格里面的基因进行搜索。以第一个基因CDK2为例,我们看到LIHC肝癌这个选项的LIHC是红色,表示的是CDK2表达显著上调;边框也是红色,表示总生存期显著,我们单击看一下具体的结果:

最后,我们看基因链接到的各个数据库:

第一个是HPRD:human protein reference database

可以查看CDK2的互作蛋白:

以及修饰等:

第二个是Genecards:看我们公众号的同学肯定都知道这个数据库了,收录是关于基因的综合信息:

我们就不多说了,有困难看这篇文章:听说你开题缺素材……。

第三个是Targetscan,做miRNA研究的基本都听过这个工具,这里对应的是调控CDK2基因的miRNA:

第四个是Pubmed Cancer,大家看一下:

是直接链接进行这个基因CDK2与Cancer这个关键词的搜索结果,展示的是文章的情况。

第五个是Human protein atlas,同样我们也介绍过:(工具篇)S5E50:航母级神器——蛋白组学结果大收录!

网站我们就介绍好了,大家使用的时候记得引用开发者的文章:

UALCAN: A Portal for Facilitating Tumor Subgroup Gene Expression and Survival Analyses.Neoplasia. 2017 Aug;19(8):649-658.

公众号介绍过的其它工具:

关注后获取《科研修炼手册》1、2、3、4、5。返回搜狐,查看更多

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

Measure

Measure

点击数:0

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

myhalic

生物科研 课题设计 实验检测

基础知识

首先我们了解一些基础知识(注:文中图片皆可点击放大查看!):

启动子(promoter):与RNA聚合酶结合并能起始mRNA合成的序列。转录起始点(TSS):转录时,mRNA链第一个核苷酸相对应DNA链上的碱基,通常为一个嘌呤。

UTR(Untranslated Regions):即非翻译区,是信使RNA(mRNA)分子两端的非编码片段。   5′-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3′-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的末端。

1查找基因的启动子区域-NCBI

1. 打开PubMed:https://www.ncbi.nlm.nih.gov/pubmed

2. 选择Gene,输入IL17A,点击search,结果如下图,点击第一个:

3. 下拉到下图位置,可以看到该基因的以下信息:

点击Tools,选择Sequence Text View:

还可以看到如下序列信息:

4. 以上只是该基因的一些信息,可以用于查找相应的UTR等区域,下面进入正题,寻找promoter区域。还是拉到如下图位置,点击FASTA:

5. 基因位置信息如下图:

6. 一般认为基因上游2 kb区域为该基因的promoter区域,所以将基因上游2 kb序列调出来:

7. 复制上述序列就是基因的启动子序列了。

2查找基因的启动子区域-UCSC

1. 打开UCSC:http://www.genome.ucsc.edu/,点击Table Browser:

2. 按照下图所示填好基因相关信息,点击get output:

3.选择genomic:

4. 勾选Promoter/Upstream by选项,并将其改为2000 bases,然后点击get sequence:

5. 得到下面的序列信息,开头直到第一个大写字母前面的所有小写字母序列即为该基因的promoter序列,你可以跟NCBI上得到的序列比对一下,看看是不是一样的呢?

6. 当然查找promoter的网站有很多,比如UCSC,在这里就不介绍了,大家可以自行探索,或者加小编微信amateur_1988交流。

3转录因子结合位点的预测

1. 打开http://jaspar.genereg.net/(我这边这个网址暂时打不开了,所以我登录了这个网址:http://jaspardev.genereg.net/),输入转录因子NFAT,点击Quick Search:

2. 将promoter序列粘贴进入右下角的框中,选中左侧转录因子,点击SCAN:

3. 得到28条转录因子NFAT与IL17A的结合位点,其中Strand -1没有特殊意义,只需选择Strand 1即可。

4. 好了,转录因子与promoter结合位点已经有了,接下来就是愉快的通过实验验证了!Luciferase、点突变、截短、ChIP等统统拉上来就可以了!

文章转自微信公众号科研小助手

Measure

Measure

点击数:0