NetworkAnalyst:一个逆天的RNA-seq数据挖掘神器

科研 话题的优秀回答者

Networkanalyst是一个进行基因表达分析和meta分析的在线可视化分析平台,可以进行比对、定量、基因表达差异分析和富集分析、蛋白相互作用分析、多个数据集整合分析,还可以绘制像PCA、蛋白互作网络图、热图、火山图、韦恩图等高颜值的图片。

之前已经详细讲解了通过该工具对GEO数据进行差异基因筛选(酸菜:找不到差异基因?这个憨憨版在线分析工具了解一下),本文则会详细介绍NetworkAnalyst如何对Microarray/RNA-Seq表达谱的一站式分析。

打开该网站网址,点击Gene expression table,进入此分析模块。

首先,需要上传基因表达数据。这里有四个选项(从上往下):

1)物种选择,该平台共提供了17个常规物种供选择,如果数据的物种不在这个列表中,就选择not specified;

2)数据类型,如果是转录组定量数据,则需要输入的是counts文件;

3)ID类型;

4) gene level summarization,默认为mean。

然后选择本地文件进行上传,点击submit即可;而本文则以示例数据Mouse bone marrow为例,点击submit提交数据。

右上角会显示上传成功,点击Proceed下一步,进入数据质检结果界面。

通过此界面,可了解该数据的类型、表格中含有的基因数目、能够与基因组匹配的基因数目、样本数、实验因素数量、总的counts数、每个样本平均counts数、样本最大的counts数和样本最小的counts数以及分组信息;

下面是数据可视化图片:

Box plot是对每个样本counts分布的箱线图展示,

count sum是对每个样本中counts总计数的图形展示,

PCA plot是主成分分析结果展示,

Density plot是对各组log2counts值的密度分布展示。

PCA plot图是以第一主成分-PC1和第二主成分-PC2分别作为横坐标和纵坐标绘制散点图。

每一个点代表一个样本,两个样本距离越远,代表这两个样本差异越大,距离越近,差异越小。

可从这张图上观察样本组内重复性的好坏,一般情况下同一个组的样本相距会比较近。

点击proceed,对数据进行过滤以及标准化,以去除一些不太可能提供信息的数据和错误的数据。

第一个条件是方差过滤(Variance filter),过滤掉方差百分比低于阈值的基因,第二个是低丰度过滤(Low abundance),过滤掉counts值低于阈值的基因,一般使用默认的过滤条件即可。

标准化方式选择Log2-counts per million,点击submit提交,就会显示对过滤后原始数据的可视化结果。

同样的,Box plot是对每个样本counts分布的箱线图展示,PCA plot是主成分分析结果展示。

Density plot是对各组log2counts值的密度分布展示,MSD plot展示了每个基因在样本中标准偏差与平均值的关系,它用来检测counts和方差之间是否存在依赖关系。

点击proceed下一步,进入差异分析环节。Networkanalyst提供3种差异分析的方法——limma、edgeRs和DESeq2,这里选择DESeq2。

因转录组数据多是单因素差异分析,主要因素选择class分组即可。

比较方法选择specific comparison,这里一定要注意:实验组在前,对照组在后,否则差异倍数的正负关系就会出错。设置完成后提交,然后点击下一步。

这里的筛选标准是p值小于0.05,log2 foldchange值大于2,提交成功后得到的差异基因个数是1897个。

下面的表格是差异基因列表,包含的内容有:

第一列,基因的id;

第二列fc取log之后的值;

第三列basemean值,也就是counts标准化之后的平均值;

第四列ifcse指logfc的标准错误;

第五列stat是wald检验的统计量,它实际上是logFC除以lfcse;

后面就是p值和矫正后的p值了。

到这里,RNA-seq的差异分析就全部完成了,点击Download Result可以对结果进行下载。

同样,点击Proceed,可以对差异基因进行可视化分析,选择相应选项,可下载数据分析图片。

本文首发于“酸谈”微信公众号

转载请注明:解螺旋·临床医生科研成长平台

Measure

Measure

点击数:0