不放过任何实验数据!教你如何充分利用单一样本:无重复RNAseq样本差异分析
2019-04-19 11:00
各位医学方的朋友,大家好。
今天的推文主要是针对RNAseq数据处理这块,现在转录组的分析非常非常普遍,在大家的课题中,都会先去做一波RNAseq,而该分析最关键的步骤就是寻找不同的组别的差异表达基因。
大家都知道,生物学实验要求至少3个生物学重复,对于有生物学重复的数据(并且一般的转录组数据都会要求生物学重复,理论上我们做转录组测序,需要的样本量每组至少为3个生物学重复),这个处理起来就很合适,可是不知道大家有没有遇到这种问题,你恰巧拿到的数据是无重复样本,真是屋漏偏遇连夜雨,就是你的数据每个类别只有一个样本,这个时候怎么办呢?是把这个样本丢掉,装作没看见?
然而,你的boss不同意怎么办呢?真的丢掉这个数据吗?当然,还是有解决办法的。这个时候,不要慌,稳住,那我们就掏出一把利剑—Gfold软件,这个软件目前认为是做没有生物学重复样本首选的软件。
链接地址:
https://zhanglab.tongji.edu.cn/softwares/GFOLD/index.html
目前的版本是1.1.4,可以看到红色框内部指出gfold软件特别适合当没有生物学重复的情况下的RNAseq的数据分析。该软件称尤其适合做无重复样本的差异分析,它对foldchange 的计算考虑到posterior distribution,即克服了pvalue评估显著性的缺点,同时也克服了 fold change 在评估低counts 数的gene时的缺点。
软件功能
主要是5大功能如下:
分别是:
① read count计数和基因排序
② read count计数
③ 无重复样本的差异表达基因的识别
④ 两组样本均含有重复样本的差异表达基因的识别
⑤ 只有一组样本含有重复的差异表达基因识别。
那我们今天主要是针对无重复样本的差异表达基因的识别,使用的便是该软件的第三个功能,也是该软件用的相对较多的功能。
软件安装
下面我们看一下这个软件,怎么安装呢?
首先需要说明一点,这个软件不支持Windows 版本,是基于linux的一个安装软件,这个时候需要你开启你的linux服务器来安装这个软件了。
STEP1:
安装gsl软件 (安装gfold之前,要保证gsl软件先安装上,否则会报错)
下载gsl,用wget:
解压该软件:
解压之后,会出现gsl -2.2文件夹
接着进入该文件夹 ,命令如下:
红色框内为gsl-2.2的路径,你需要替换成自己的就可以了,接着用make install 安装
STEP2:
安装gfold软件
解压之后如下:生成一个文件名为feeldead-gfold-1921fd6dc668的文件夹
进入该文件夹:
接着就是比较关键的步骤,需要键入这样的命令:
这个时候,虽然会出现warning ,但是没关系,就像R里面的warning一样,我们选择忽略就行了,因为已经安装好了,有可执行文件gfold了。
STEP3:
判断该软件是否安装成功 ./gfold –h
在feeldead-gfold-1921fd6dc668文件夹下,我们输入./gfold –h 查看文件时都安装成功。
出现下面这个界面,那就说明我们成功的安装了该软件。
差异比较
下面我们介绍我们的重头戏,有了软件,怎么做单个样本的差异比较呢?
首先需要做一个说明,就是输入文件需要是5列信息,分别是列依次为GeneSymbol、GeneName、Read Count、Gene exon length、RPKM。分别表示需要输入的基因的Symbol名,基因名,基因在该样本的Count数,基因的外显子长度以及RPKM值。如果我们只是计算差异分析,我们只需要保证Read Count数据的准确性,其他的两列信息可以自己随便填充数值,但是不可以省略,否则软件会报错。
准备文件:
我们需要准备两个文件,一个是control组,一个是case组别,即我们需要比较这两个组别的差异。
首先,我们新建一个文件夹test,用于存储我们的测试数据。
便会出现新的文件夹,键入ls –l的命令,如下:
接着我们进入该文件夹,便会看到我们存放的两个需要用于比对的文件,一个代表case组,一个代表control组别:
接着我们查看了每个文件的前十行,命令和结果如下:
(我们这里加了一个|column –t的参数,保证显示的效果为列对其)
求差异:
磨刀霍霍向猪羊。既然我们的万事俱备了,那就掏出命令求差异,毕竟,我等软件只为了做这件事。
这个时候,我们先找到核武器在哪?还记得不?就是那个一连串难记的文件夹(红色框框):
接着,就是启动它,如何启动呢?
当这些出现的时候,说明gfold软件可以被使用。
学习官网资料,告诉我们,求两个样本的差异可以这样的一条命令计算:
gfold diff -s1 sample1-s2 sample2-o sample1VSsample2.diff
diff 参数代表该软件用于计算差异, -s1 代表需要输入的第一个样本, -s2代表需要输入的第二个样本, -o即output代表结果的输出文件
此刻我们替换成我们的样本,如下:
红色框框就是我们的命令行,箭头所指代表软件开始运行工作了。
运行完毕,就会提示你 Job diff is DONE:
ok,那我们查看一下test文件夹下的文件:
我们看到就出现了caseVScontrol.diff的文件。
接着我们查看一下该文件的前100行信息
主要一共7列信息,前两列没什么可说,就是gene symbol和gene name,第三列是GFOLD值,相当于log2(Fold Change),该值等于0的基因则记为非差异基因,非0的值才是差异基因,E-FDR是基于重复的Empirical FDR,因此无重复样本的经验FDR均为1。Log2fdc以及后面的RPKM列可以忽略考虑,因为最开始的exon的长度,我们是给定的是一个虚拟的数据。
所以真正的确定差异是否显著,主要是看GFOLD值,GFOLD>0,代表case组中高表达,GFOLD<0,代表case组中低表达。
筛选差异:
导入excel 筛选差异,完美收官。
你会发现,在18163个基因中,你找到了5017个差异基因,差异太多怎么办?设定一个cutoff, 比如我们设定<-0.3或者大于0.3,结果就是:
就会看到差异数目变为1273个,这个数目还是可以接受的。
Ok,今天的推文,我们分享了如何在就在liunx环境下gfold软件的安装,如何用该软件实现单个样本的差异比较,下次碰到孤独的样本,不要轻易放弃,还是可以前处理一下的。
最后,欢迎大家留言,有不正确的地方,也请大家留言指正。
END
征 稿 启 事
「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳。
“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。返回搜狐,查看更多
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 (3838)
.
点击数:0