NetworkAnalyst:一个逆天的RNA-seq数据挖掘神器
科研 话题的优秀回答者
Networkanalyst是一个进行基因表达分析和meta分析的在线可视化分析平台,可以进行比对、定量、基因表达差异分析和富集分析、蛋白相互作用分析、多个数据集整合分析,还可以绘制像PCA、蛋白互作网络图、热图、火山图、韦恩图等高颜值的图片。
之前已经详细讲解了通过该工具对GEO数据进行差异基因筛选(酸菜:找不到差异基因?这个憨憨版在线分析工具了解一下),本文则会详细介绍NetworkAnalyst如何对Microarray/RNA-Seq表达谱的一站式分析。
打开该网站网址,点击Gene expression table,进入此分析模块。
首先,需要上传基因表达数据。这里有四个选项(从上往下):
1)物种选择,该平台共提供了17个常规物种供选择,如果数据的物种不在这个列表中,就选择not specified;
2)数据类型,如果是转录组定量数据,则需要输入的是counts文件;
3)ID类型;
4) gene level summarization,默认为mean。
然后选择本地文件进行上传,点击submit即可;而本文则以示例数据Mouse bone marrow为例,点击submit提交数据。
右上角会显示上传成功,点击Proceed下一步,进入数据质检结果界面。
通过此界面,可了解该数据的类型、表格中含有的基因数目、能够与基因组匹配的基因数目、样本数、实验因素数量、总的counts数、每个样本平均counts数、样本最大的counts数和样本最小的counts数以及分组信息;
下面是数据可视化图片:
Box plot是对每个样本counts分布的箱线图展示,
count sum是对每个样本中counts总计数的图形展示,
PCA plot是主成分分析结果展示,
Density plot是对各组log2counts值的密度分布展示。
PCA plot图是以第一主成分-PC1和第二主成分-PC2分别作为横坐标和纵坐标绘制散点图。
每一个点代表一个样本,两个样本距离越远,代表这两个样本差异越大,距离越近,差异越小。
可从这张图上观察样本组内重复性的好坏,一般情况下同一个组的样本相距会比较近。
点击proceed,对数据进行过滤以及标准化,以去除一些不太可能提供信息的数据和错误的数据。
第一个条件是方差过滤(Variance filter),过滤掉方差百分比低于阈值的基因,第二个是低丰度过滤(Low abundance),过滤掉counts值低于阈值的基因,一般使用默认的过滤条件即可。
标准化方式选择Log2-counts per million,点击submit提交,就会显示对过滤后原始数据的可视化结果。
同样的,Box plot是对每个样本counts分布的箱线图展示,PCA plot是主成分分析结果展示。
Density plot是对各组log2counts值的密度分布展示,MSD plot展示了每个基因在样本中标准偏差与平均值的关系,它用来检测counts和方差之间是否存在依赖关系。
点击proceed下一步,进入差异分析环节。Networkanalyst提供3种差异分析的方法——limma、edgeRs和DESeq2,这里选择DESeq2。
因转录组数据多是单因素差异分析,主要因素选择class分组即可。
比较方法选择specific comparison,这里一定要注意:实验组在前,对照组在后,否则差异倍数的正负关系就会出错。设置完成后提交,然后点击下一步。
这里的筛选标准是p值小于0.05,log2 foldchange值大于2,提交成功后得到的差异基因个数是1897个。
下面的表格是差异基因列表,包含的内容有:
第一列,基因的id;
第二列fc取log之后的值;
第三列basemean值,也就是counts标准化之后的平均值;
第四列ifcse指logfc的标准错误;
第五列stat是wald检验的统计量,它实际上是logFC除以lfcse;
后面就是p值和矫正后的p值了。
到这里,RNA-seq的差异分析就全部完成了,点击Download Result可以对结果进行下载。
同样,点击Proceed,可以对差异基因进行可视化分析,选择相应选项,可下载数据分析图片。
转载请注明:解螺旋·临床医生科研成长平台
Measure
Measure
点击数:0