不放过任何实验数据!教你如何充分利用单一样本:无重复RNAseq样本差异分析

2019-04-19 11:00

各位医学方的朋友,大家好。

今天的推文主要是针对RNAseq数据处理这块,现在转录组的分析非常非常普遍,在大家的课题中,都会先去做一波RNAseq,而该分析最关键的步骤就是寻找不同的组别的差异表达基因。

大家都知道,生物学实验要求至少3个生物学重复,对于有生物学重复的数据(并且一般的转录组数据都会要求生物学重复,理论上我们做转录组测序,需要的样本量每组至少为3个生物学重复),这个处理起来就很合适,可是不知道大家有没有遇到这种问题,你恰巧拿到的数据是无重复样本,真是屋漏偏遇连夜雨,就是你的数据每个类别只有一个样本,这个时候怎么办呢?是把这个样本丢掉,装作没看见?

然而,你的boss不同意怎么办呢?真的丢掉这个数据吗?当然,还是有解决办法的。这个时候,不要慌,稳住,那我们就掏出一把利剑—Gfold软件,这个软件目前认为是做没有生物学重复样本首选的软件。

链接地址:

https://zhanglab.tongji.edu.cn/softwares/GFOLD/index.html

目前的版本是1.1.4,可以看到红色框内部指出gfold软件特别适合当没有生物学重复的情况下的RNAseq的数据分析。该软件称尤其适合做无重复样本的差异分析,它对foldchange 的计算考虑到posterior distribution,即克服了pvalue评估显著性的缺点,同时也克服了 fold change 在评估低counts 数的gene时的缺点。

软件功能

主要是5大功能如下:

分别是:

① read count计数和基因排序

② read count计数

③ 无重复样本的差异表达基因的识别

④ 两组样本均含有重复样本的差异表达基因的识别

⑤ 只有一组样本含有重复的差异表达基因识别。

那我们今天主要是针对无重复样本的差异表达基因的识别,使用的便是该软件的第三个功能,也是该软件用的相对较多的功能。

软件安装

下面我们看一下这个软件,怎么安装呢?

首先需要说明一点,这个软件不支持Windows 版本,是基于linux的一个安装软件,这个时候需要你开启你的linux服务器来安装这个软件了。

STEP1:

安装gsl软件 (安装gfold之前,要保证gsl软件先安装上,否则会报错)

下载gsl,用wget:

解压该软件:

解压之后,会出现gsl -2.2文件夹

接着进入该文件夹 ,命令如下:

红色框内为gsl-2.2的路径,你需要替换成自己的就可以了,接着用make install 安装

STEP2:

安装gfold软件

解压之后如下:生成一个文件名为feeldead-gfold-1921fd6dc668的文件夹

进入该文件夹:

接着就是比较关键的步骤,需要键入这样的命令:

这个时候,虽然会出现warning ,但是没关系,就像R里面的warning一样,我们选择忽略就行了,因为已经安装好了,有可执行文件gfold了。

STEP3:

判断该软件是否安装成功 ./gfold –h

在feeldead-gfold-1921fd6dc668文件夹下,我们输入./gfold –h 查看文件时都安装成功。

出现下面这个界面,那就说明我们成功的安装了该软件。

差异比较

下面我们介绍我们的重头戏,有了软件,怎么做单个样本的差异比较呢?

首先需要做一个说明,就是输入文件需要是5列信息,分别是列依次为GeneSymbol、GeneName、Read Count、Gene exon length、RPKM。分别表示需要输入的基因的Symbol名,基因名,基因在该样本的Count数,基因的外显子长度以及RPKM值。如果我们只是计算差异分析,我们只需要保证Read Count数据的准确性,其他的两列信息可以自己随便填充数值,但是不可以省略,否则软件会报错。

准备文件:

我们需要准备两个文件,一个是control组,一个是case组别,即我们需要比较这两个组别的差异。

首先,我们新建一个文件夹test,用于存储我们的测试数据。

便会出现新的文件夹,键入ls –l的命令,如下:

接着我们进入该文件夹,便会看到我们存放的两个需要用于比对的文件,一个代表case组,一个代表control组别:

接着我们查看了每个文件的前十行,命令和结果如下:

(我们这里加了一个|column –t的参数,保证显示的效果为列对其)

求差异:

磨刀霍霍向猪羊。既然我们的万事俱备了,那就掏出命令求差异,毕竟,我等软件只为了做这件事。

这个时候,我们先找到核武器在哪?还记得不?就是那个一连串难记的文件夹(红色框框):

接着,就是启动它,如何启动呢?

当这些出现的时候,说明gfold软件可以被使用。

学习官网资料,告诉我们,求两个样本的差异可以这样的一条命令计算:

gfold diff -s1 sample1-s2 sample2-o sample1VSsample2.diff

diff 参数代表该软件用于计算差异, -s1 代表需要输入的第一个样本, -s2代表需要输入的第二个样本, -o即output代表结果的输出文件

此刻我们替换成我们的样本,如下:

红色框框就是我们的命令行,箭头所指代表软件开始运行工作了。

运行完毕,就会提示你 Job diff is DONE:

ok,那我们查看一下test文件夹下的文件:

我们看到就出现了caseVScontrol.diff的文件。

接着我们查看一下该文件的前100行信息

主要一共7列信息,前两列没什么可说,就是gene symbol和gene name,第三列是GFOLD值,相当于log2(Fold Change),该值等于0的基因则记为非差异基因,非0的值才是差异基因,E-FDR是基于重复的Empirical FDR,因此无重复样本的经验FDR均为1。Log2fdc以及后面的RPKM列可以忽略考虑,因为最开始的exon的长度,我们是给定的是一个虚拟的数据。

所以真正的确定差异是否显著,主要是看GFOLD值,GFOLD>0,代表case组中高表达,GFOLD<0,代表case组中低表达。

筛选差异:

导入excel 筛选差异,完美收官。

你会发现,在18163个基因中,你找到了5017个差异基因,差异太多怎么办?设定一个cutoff, 比如我们设定<-0.3或者大于0.3,结果就是:

就会看到差异数目变为1273个,这个数目还是可以接受的。

Ok,今天的推文,我们分享了如何在就在liunx环境下gfold软件的安装,如何用该软件实现单个样本的差异比较,下次碰到孤独的样本,不要轻易放弃,还是可以前处理一下的。

最后,欢迎大家留言,有不正确的地方,也请大家留言指正。

END

征 稿 启 事

「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳。

“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。返回搜狐,查看更多

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

阅读 (3838)

.

点击数:0