从0开始的RNA-seq教程

从0开始的RNA-seq教程

五香可达鸭

2020.10.26 10:35:56字数 1,194阅读 135

本次RNA-seq分析目标明确,得到基因的表达矩阵即可,不涉及其他分析。

样本:植物的叶和茎的转录组;测序方法:双端测序;有参考基因组文件

1.数据质控
拿到测序数据,第一步进行md5检测,确定文件没有损坏。然后使用fastqc对测序数据进行质控,multiqc可以聚合多个qc结果进行展示。双端测序文件一般是两个,命名时一般会在末尾加上1,2加以区分。
从 SRA下载了raw data,质控很多人用fastqc,这里为了方便,我使用了fastp,直接生成过滤后的文件,省去了过滤的步骤,并且速度很快。

#SRA数据提取fastq文件,详细参数自行搜索
fastq-dump --gzip --split-e SRR_ID

#fastqc 命令
fastqc -t 8 -o out_path sample1_1.fq sample1_2.fq

#fastp命令  输入文件、输出文件、输入文件、输出文件、线程数
fastp -i  A1.fq.gz  -o fastp_A1.fq.gz -I A2.fq.gz -O fastp_A2.fq.gz -w 4
12345678

2.参考基因组和基因注释文件
我的样本特殊,有参考基因组和注释文件,但是注释文件不完善,只进行了基因的结构预测,并没有给gene_Id,所以要在后来的处理中花费额外的时间去做(第一个坑)。
从ncbi下载组装注释好的基因组。

3.序列比对

目的:这一步的目的是把测序的reads比对到参考基因组上。

RNA-Seq数据分析分为很多种,比如说找差异表达基因或寻找新的可变剪切。如果找差异表达基因单纯只需要确定不同的read计数就行的话,我们可以用bowtie, bwa这类比对工具,或者是salmon这类align-free工具,并且后者的速度更快。

但是如果你需要找到新的isoform,或者RNA的可变剪切,看看外显子使用差异的话,你就需要TopHat, HISAT2或者是STAR这类工具用于找到剪切位点。因为RNA-Seq不同于DNA-Seq,DNA在转录成mRNA的时候会把内含子部分去掉。所以mRNA反转的cDNA如果比对不到参考序列,会被分开,重新比对一次,判断中间是否有内含子。
链接:https://www.jianshu.com/p/681e02e7f9af

就唯一比对而言,STAR是三者最佳的,主要是因为它不会像TopHat和HISAT2一样在PE比对不上的情况还强行把SE也比对到基因组上。而且在处理较长的read和较短read的不同情况,STAR的稳定性也是最佳的。
就速度而言,HISAT2比STAR和TopHat2平均快上2.5~100倍
链接:https://www.jianshu.com/p/681e02e7f9af

工具:目前比较推荐的是hisat2,hisat2正确率高,当然总数量会降低,二类错误率低了,一类错误率就会高。STAR好像也行,但是我还是用了使用比较多的hisat2

正式开始:
①索引,为了提高比对效率,通过BWT算法对基因组建立索引去进行比对。有现成的就下载现成的,没有现成的就自己建一个索引(我用的服务器比较富裕,所以时间也没有很久,十几分钟吧)。hisat2快速上手教程

 # 其实hisat2-buld在运行的时候也会自己寻找exons和splice_sites,但是先做的目的是为了提高运行效率
 extract_exons.py gencode.v26lift37.annotation.sorted.gtf > hg19.exons.gtf 
 extract_splice_sites.py gencode.v26lift37.annotation.gtf > hg19.splice_sites.gtf 
 # 建立index, 必须选项是基因组所在文件路径和输出的前缀
 hisat2-build --ss hg19.splice_sites.gtf --exon hg19.exons.gtf genome/hg19/hg19.fa hg19
12345

这里请注意一点,hisat2使用gtf文件生成exon和ss文件,gff文件不可以,所以要先把gff文件使用gffread转化成gtf格式。

②开始比对
③sam文件转换为bam文件并进行排序,建立索引
④bam文件质控(因为后续输入文件可以用sam文件,所以省去了转换格式那一步)


hisat2 -p 4 -x ../index/Rosa -1 A_1.fastq.gz -2 A_2.fastq.gz –S A.sam

123

4.reads计数

featurecounts 计数。


1

这里要说一下,目前FPKM和RPKM不被用来做差异分析,TPM和TMM标准化用来做差异分析的比较多,且DEseq的输入文件是标准化之前的,所以推荐featurecounts计数。

5.基因差异表达分析
6.富集分析

写在最后:
推荐的两篇综述文献(虽然很难读):
①Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis
②A survey of best practices for RNA-seq data analysis

1人点赞

随笔

“小礼物走一走,来简书关注我”

还没有人赞赏,支持一下

五香可达鸭

总资产0.249 (约0.02元)共写了1194字获得1个赞共3个粉丝

点击数:0

fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件_刘永鑫的博客——宏基因组公众号-CSDN博客

fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件

刘永鑫Adam
2018-04-09 00:00:00

1122

收藏

2

版权

软件作者介绍

陈实富博士,海普洛斯联合创始人 / CTO

海普洛斯是全球领先的精准医疗和基因大数据国家高新技术企业,拥有 Illumina NovaSeq、 HiSeq X10、NextSeq等全系列测序仪,致力于整合液体活检、基因测序、人工智能、大数据等前沿新兴科技,让每一个生命健康 120 年。海普洛斯拥有很好的开源文化,发起和维护了开源基因数据分析项目组 OpenGene。

目前,陈博士正在招聘生物信息攻城狮(文末附招聘需求),如果你有兴趣加入这个开放而富有情怀的团队,请加他的微信(WeChat ID:opengene),或者直接将简历砸向 chen@haplox.com。

第一部分

   引言   

各位做生信的小伙伴都知道,对于下机的 FASTQ 数据需要进行质控和预处理,以保证下游分析输入的数据都是干净可靠的。通常我们都是使用 FASTQC 等软件进行质控,使用 cutadapt 软件去除接头,使用Trimmomatic 等软件进行剪裁,然后使用一些自已开发的脚本进行过滤。这一过程可能需要使用多个软件,相当繁琐,而且速度较慢,这些软件大多又不支持多线程,遇到较大的FASTQ 文件,处理起来可真是让人等得心急如焚。

所以今天给大家介绍一款新的软件:fastp。它可以仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能,而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右,因为它使用 C++开发,处处使用了高效算法,而且完美支持多线程!正因为其强大的功能和飞快的速度,其 github 项目在第一个版本发布至今, 已经收到了194多个 star,这在生信软件小领域里面算是神速了!而且该软件更新频繁,最新版0.12.5,每一版都有新功能加入!

该项目的 github 地址请戳:https://github.com/OpenGene/fastp

第二部分

   功能特点   

先来看一看该软件的功能列表:

 fastp软件十大功能列表 

1、对数据自动进行全方位质控,生成人性化的报告;

2、过滤功能(低质量,太短,太多N……);

3、对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似 Trimmomatic 的做法,但是快非常多);

4、全局剪裁 (在头/尾部,不影响去重),对于 Illumina 下机数据往往最后一到两个 cycle 需要这样处理;

5、去除接头污染。厉害的是,你不用输入接头序列,因为算法会自动识别接头序列并进行剪裁; 

6、对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正;

7、去除尾部的 polyG。对于NextSeq/NovaSeq 的测序数据,因为是两色法发光,polyG 是常有的事,所以该特性对该两类测序平台默认打开;

8、进行fastq质量值转换,轻松转换老旧Phred64质量值为常用的Phred33,适应主流软件;

9、可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index 上,都可以轻松处理;

10、可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数。 

以上功能大多都不需要输入太多的参数,一些功能默认已经开启,但是可以用参数关闭。fastp 完美支持 gzip 的输入和输出,同时支持 SE 和 PE 数据,而且不但支持像 Illumina 平台的 short read 数据,也在一定程度上支持PacBio与Nanopore 的 long reads 数据。

fastp 软件会生成 HTML 格式的报告,而且该报告中没有任何一张静态图片,所有的图表都是使用 JavaScript 动态绘制,非常具有交互性,想要看一下样板报告的,可以去以下链接:http://opengene.org/fastp/fastp.html

而且软件的开发者还充分考虑到了各种自动化分析的需求,不但生成了人可读的HTML 报告,还生成了程序可读性非常强的 JSON 结果,该 JSON 报告中的数据包含了 HTML 报告 100%的信息,而且该 JSON 文件的格式还是特殊定制的,不但程序读得爽,你用任何一款文本编辑器打开,一眼过去也会看得明明白白。想要看一下 JSON 结果长什么样的,可以去以下链接:http://opengene.org/fastp/fastp.json

第三部分

   轻松上手  

看起来这个软件功能非常多,那使用起来是不是非常复杂呢?非也!

该软件的使用非常简单,默认情况下只需要指定输入和输出文件,就可以很好地工作。例如我们想对 in.fq 文件进行过滤和质控,并输出 clean data 为 out.fq,那么就可以使用以下的命令:

fastp -i in.fq -o out.fq

即使用小写的 i 和小写的 o 分别指定 input 和 output 文件,就大功告成啦。软件执行完成之后,会生成 out.fq,还会生成两个文件 fastp.html 和 fastp.json。其中fastp.html 是可视化的 QC 质控报告以及各类过滤统计,而 fastp.json 是 JSON 版本的报告,主要用于下游程序来解读质控和过滤的结果。而且 fastp 会同时统计过滤前(raw data)和过滤后(clean data)的质量信息,以方便你分析过滤前后数据质量发生了什么变化,够贴心吧?以上例子是对单端测序数据(single-end,SE)进行的,那对于双端测序数据 (paired-end,PE)是不是也可以呢?答案自然是肯定的,而且命令也基本上差不多,示例如下:

fastp -i in.R1.fq -o out.R1.fq -I in.R2.fq -O out.R2.fq

可以看到,-i 和-o 还是用来指定 read1 的输入了输出,而大写的-I 和-O(注意是喔,而不是零)则是用于指定read2的输入和输出,其他都保持不变。而且fastp软件最初的研发就是为了更好地处理 PE 数据,所以对于 PE 数据开发了更多的算法,比如基于 overlap 分析进行碱基校正等功能,就是只有 PE 数据独享的。fastp 对于输入和输出都支持 gzip 压缩,使用方法也很简单,只要文件名的末尾带有.gz,就会被认为是 gzip 压缩文件,会启用 gzip 对输入输出进行压缩和解压处理,例如以上 PE 的例子,如果是压缩的,就可以是以下命令:

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

第四部分

  安装fastp  

安装 fastp 十分简单,如果你使用的是 Linux 系统,可以直接使用网站上提供的预编译好的版本,下载地址是 http://opengene.org/fastp/fastp,可以使用 wget等命令进行下载,下载了之后记得使用 chmod a+x ./fastp 增加该文件的可执行权限,然后就可以使用了。

也可以从源代码进行编译,需要使用 git 工具或者直接在网页上下载 release 的 源代码,以 git 下载最新的代码为例:

git clone https://github.com/OpenGene/fastp.git

cd fastp

make

sudo make install

第五部分

  功能介绍  

接下来我们简单介绍一下 fastp 的一些功能,受公众号篇幅影响,每一个功能我们都只是简单地带过,如果想要看详细的介绍,可以上 github 官网上查看。

5.1

过滤

对于低质量序列,较多 N 的序列,该功能默认是启用的,但可以使用-Q参数关闭。使用-q 参数来指定合格的 phred 质量值,比如-q 15 表示质量值大于等于Q15 的即为合格,然后使用-u 参数来指定最多可以有多少百分比的质量不合格碱基。比如-q 15 -u 40 表示一个 read 最多只能有 40%的碱基的质量值低于Q15,否则会被扔掉。使用-n 可以限定一个 read 中最多能有多少个 N。

fastp 还默认启用了 read 长度过滤,但也可以使用-L 参数关闭。使用-l 参数指定最低要求一个 read 有多长,比如-l 30 表示低于 30 个碱基的 read 会被扔掉。这个功能可以用于实现常用的 discard 模式,以保证所有输出的序列都一样长。

在 fastp 的 HTML 报告中,最头上的 Summary 表格很清楚地显示了过滤的统计信息,如下图所示:

5.2

接头处理

接头(adapter)污染的处理是 FASTQ 文件预处理中很重要的一步。fastp 默认启用了接头处理,但是可以使用-A 命令来关掉。fastp 可以自动化地查找接头序列并进行剪裁,也就是说你可以不输入任何的接头序列,fastp 全自动搞定了!对于 SE 数据,你还是可以-a 参数来输入你的接头,而对于 PE 数据则完全没有必要,fastp 基于PE 数据的 overlap 分析可以更准确地查找接头,去得更干净,而且对于一些接头本身就有碱基不匹配情况处理得更好。fastp 对于接头去除会有一个汇总的报告,如下图所示:

5.3

滑窗质量裁剪

很多时候,一个 read 的低质量序列都是集中在 read 的末端,也有少部分是在 read的开头。fastp 支持像 Trimmomatic 那样对滑动窗口中的碱基计算平均质量值,然后将不符合的滑窗直接剪裁掉。使用-5 参数开启在 5’端,也就是 read 的开头的剪裁,使用-3 参数开启在 3’端,也就是 read 末尾的剪裁。使用-W 参数指定滑动窗大小,默认是 4,使用-M 参数指定要求的平均质量值,默认是 20,也就是 Q20。

5.4

 PE 数据的碱基校正

fastp 支持对 PE 数据的每一对 read 进行分析,查找它们的 overlap 区间,然后对于 overlap 区间中不一致的碱基,如果发现其中一个质量非常高,而另一个非常低,则可以将非常低质量的碱基改为相应的非常高质量值的碱基值,如下图所示:

上图中所示的标红的 T 碱基是低质量序列,和高质量的 A 不匹配,它会被校正为 A。该校正功能默认没有开启使用-c 参数可以启用,对于一些对噪声容忍度低的应用,比如液体活检,建议开启。

5.5

全局剪裁

fastp 可以对所有 read 在头部和尾部进行统一剪裁,该功能在去除一些测序质量不好的 cycle 比较有用,比如 151*2 的 PE 测序中,最后一个 cycle 通常质量是非常低的,需要剪裁掉。使用-f 和-t 分别指定 read1 的头部和尾部的剪裁,使用-F和-T 分别指定 read2 的头部和尾部的剪裁。

5.6

polyG 剪裁

对于两色发光法的 Illumina 设备(NextSeq / NovaSeq),因为在没有光信号情况下 base calling 的结果会返回 G,所以在序列的尾端可能会出现较多的 polyG,需要被去除。fastp会自动化地识别NextSeq / NovaSeq的数据,然后进行polyG识别和剪裁。如果你想强制开启该功能,可以指定-g 参数,如果想强制关闭该功能,则可以指定-G 参数。

5.7

分子标签 UMI 处理

UMI 在处理 ctDNA 类似的超低频突变检测应用中是十分有用的,为了更好地对带 UMI 的 FASTQ 文件进行预处理,fastp 也很好地支持了 UMI 预处理功能。该 功能默认没有启用,需要使用-U 参数开启,另外需要使用–umi_loc 来指定 UMI所在的位置,它可以是(index1、index2、read1、read2、per_index、per_read ) 中的一种,分别表示 UMI 是在 index 位置上,还是在插入片段中。如果指定了是在插入序列中,还需要使用 –umi_len 参数来指定 UMI 所占的碱基长度。

5.8

输出文件切分

很多时候我们需要对输出的 FASTQ 进行切分,分成大小均匀的多个文件,这样可以使用比对软件并行地比对,高并行处理的速度。fastp 软件也????供了相应的功能,并且支持了两种模式,分别是使用参数-s 指定切分后文件的个数,或者 使用-S 参数指定每个切分后文件的行数。

第六部分

  质控报告解读  

接下来,我们再看一下如何理解 fastp 生成的质控报告。

fastp 的报告在单一文件中同时包含了过滤前和过滤后的统计结果,如果是 PE 数据,则同时包含了 read1和 read2 的统计结果。之前我们已经说过了,fastp 会生成 HTML 的报告和 JSON格式的报告。HTML 报告的默认文件名是 fastp.html,但是可以通过-h 参数修改,JSON 报告的默认文件名是 fastp.json,但是可以通过-j 参数修改。而且 fastp 报 告还有一个标题,默认是 fastp report,这个也可以通过-R 参数修改为你想要的标题。JSON 格式的报告是优化过的,人机皆可读,适合进阶的用户使用程序解析,而这里我们重点关注 HTML 格式的报告。

6.1

质量含量分布曲线

我们第一关注的当然是质量,所以 fastp ????供了质量分布曲线,即每一个 cycle的平均质量值,而且 fastp 同时????供了 A/T/C/G 四种不同碱基的平均质量,以及总的平均质量,如下图所示:

从上图我们可以看到,一共有 5 条曲线,分别是 A/T/C/G 和 mean。而且 HTML报告的每一个项目和分项目都是可以点击进行隐藏和展开的。

6.2

碱基含量分布曲线

和质量分布曲线类似,碱基含量分布曲线也是按照每一个 cycle 来的,显示了每 一个位置的碱基含量。如下图所示:

从图中可以看到,fastp同时显示了A/T/C/G/N/GC 的每一个位置的比例和总的比例。而且如果你觉得头部那里比较乱看不清的话,可以用鼠标拉一个框,它就放大了。

6.3

KMER 统计表格

fastp 对 5 个碱基长度的所有组合的出现次数进行了统计,然后把它放在了一张表格中,表格的每一个元素为深背景白字,背景越深,则表示重复次数越多。这 样,一眼望去,就可以发现有哪些异常的信息。

从上面的 KMER 表格中,我们可以发现,GGGGG 的颜色特别深,从鼠标移上去之后显示的信息中我们可以发现它的出现次数是平均次数的 12.8 倍,这是不正常的,因为 GGGGG 的正常倍数应该在 1 倍左右。幸好我们有 fastp,它可以过滤掉这种 polyG,让数值较多地回归正常。

6.4

过表达序列 

fastp 的最新版本(v0.12)????供了过表达序列(overrepresetned sequence )的分析,而且不但供了这些 overrepresented sequence 的序列个数和占比,还????供了他们在测序cycles 中的分布情况,这有利于分析各种问题。具体示例如下图所示:

第七部分

  结语  

好了,本次 fastp 的介绍就到此结束了。

fastp 软件还在不断更新中,目前每星期都有新功能开发出来,所以要想了解 fastp 软件的最新动态,请关注该软件的github 项目地址 https://github.com/OpenGene/fastp

第八部分

招聘信息

目前,海普洛斯生物信息学团队正在召唤以下精英人才:

岗位一:生物信息学分析主管(科研服务方向)

任职要求:5 年以上生物信息学分析相关经验3 年以上科服领域分析经验和 2 年以上的团队带领经验精通 Python/R/C/C++/WEB/SHELL/Perl 编程技术中的一种或多种熟悉 Linux/docker/git 等基础应用工具精通单细胞 WGS/WES、RNA-Seq、BS-Seq、肿瘤 WGS/WES 等分析中的多种

岗位二:生物信息学工程师(科研服务方向)

任职要求:2 年以上生物信息学分析相关经验1 年以上科服领域分析经验熟悉 Python/R/C/C++/WEB/SHELL/Perl 编程技术中的一种或多种熟悉单细胞 WGS、单细胞 WES、RNA-Seq、BS-Seq、肿瘤 WGS/WES 等分析中的两种以上

岗位三:生物信息学软件开发工程师

任职要求:对编程的极度热爱,并热衷于使用 IT 技术解读生命密码

对生物信息学较深度的了解精通 C/C++/Python/R/Go/WEB 编程技术的两种或以上熟悉 FASTQ/BAM/SAM/VCF 等不同的数据格式和相应的操作库

以上岗位,除主管之外,都可以实习。如果你足够优秀,以上的条件多条都可以作废。可选工作地点有两个,穿衣很省空气好的深圳,或者风景秀丽房价低的江西上饶。

如果有小伙伴想要加入,体验开源开放的团队文化和全栈的开发环境,请速速将简历传送到 chen@haplox.com,并抄送到 hr@haplox.com,或者添加以下微信进行勾搭(微信号:opengene):

猜你喜欢

10000+:肠道细菌 人体上的生命 宝宝与猫狗 梅毒狂想曲 提DNA发Nature 实验分析谁对结果影响大  Cell微生物专刊

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:生信宝典 学术图表 高分文章 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板 Shell  R Perl

生物科普  生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外150+ PI,1300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

点击数:0

从转录本或者探针名到基因名的转换方法

从转录本或者探针名到基因名的转换方法


2017-04-08 15:15

在我们的视频课程中,我们介绍了如何使用GEO2R这个自带的工具对GEO中的差异基因进行分析,不过有同学反馈说拿到基因里面不是基因名(Gene Symbol),而是GB_ACC也就是Gene Bank Accession number,

所以我们写这期说明如何从GB_ACC转换到基因名

使用的工具是DAVID :https://david.ncifcrf.gov/

DAVID是网页版进行基因功能分析的最常用工具,不仅可以实现常见的基因功能分析(比如GO、信号通路等),还可以进行基因ID转换。

这里我们要用的就是Shortcut to DAVID Tools里面的Gene ID Conversion功能,方法非常简单,如下图:

第一步:输入GB_ACC,多条序列直接从excel复制即可;

第二步:选择输入的类型GENEBANK_ACCESSION;

第三步:Gene List

第四步:Submit List

弹出下面的界面:

选择物种,比如Homo sapiens,然后选择Show Gene List就好了:

当然,有了基因以后还可以做功能分析:

选择以后我们可以选择要分析的内容:比如GO、pathway等等。

当然,如果我们有的不是GB_ACC,而是芯片的探针名那我们一般就要找到芯片的注释文件,比如从GEO上分析的一般可以找一下平台号,比如GSE89143的平台号是GPL19978:

那我们可以单击下载SOFT formatted Family files注释文件:

下载后通过excel打开:

接下来在excel里面取交集就可以了()。

另外,还可以到公司的官网下载注释文件,或者到一些数据库中下载,比如GSEA:ftp://ftp.broadinstitute.org/pub/gsea/annotations

关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集。返回搜狐,查看更多

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

 

首赞

+1

阅读 (1.2万)

.

点击数:0

从转录本或者探针名到基因名的转换方法

从转录本或者探针名到基因名的转换方法


2017-04-08 15:15

在我们的视频课程中,我们介绍了如何使用GEO2R这个自带的工具对GEO中的差异基因进行分析,不过有同学反馈说拿到基因里面不是基因名(Gene Symbol),而是GB_ACC也就是Gene Bank Accession number,

所以我们写这期说明如何从GB_ACC转换到基因名

使用的工具是DAVID :https://david.ncifcrf.gov/

DAVID是网页版进行基因功能分析的最常用工具,不仅可以实现常见的基因功能分析(比如GO、信号通路等),还可以进行基因ID转换。

这里我们要用的就是Shortcut to DAVID Tools里面的Gene ID Conversion功能,方法非常简单,如下图:

第一步:输入GB_ACC,多条序列直接从excel复制即可;

第二步:选择输入的类型GENEBANK_ACCESSION;

第三步:Gene List

第四步:Submit List

弹出下面的界面:

选择物种,比如Homo sapiens,然后选择Show Gene List就好了:

当然,有了基因以后还可以做功能分析:

选择以后我们可以选择要分析的内容:比如GO、pathway等等。

当然,如果我们有的不是GB_ACC,而是芯片的探针名那我们一般就要找到芯片的注释文件,比如从GEO上分析的一般可以找一下平台号,比如GSE89143的平台号是GPL19978:

那我们可以单击下载SOFT formatted Family files注释文件:

下载后通过excel打开:

接下来在excel里面取交集就可以了()。

另外,还可以到公司的官网下载注释文件,或者到一些数据库中下载,比如GSEA:ftp://ftp.broadinstitute.org/pub/gsea/annotations

关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集。返回搜狐,查看更多

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

 

首赞

+1

阅读 (1.2万)

.

点击数:0

重磅!你想要的Zotero中文文献识别!它来了!

重磅!你想要的Zotero中文文献识别!它来了!

青柠学术

浙江大学 信息与电子工程学院博士在读

测试近期,收到一封来自开发者l0o0的GitHub邮件。从邮件中我得知:一个重磅Zotero插件Jasminum诞生了!

为开发者疯狂打call

万众期待的Zotero中文文献识别功能终于来了!

来,直接上结果!

看完结果,下面来细说

重磅插件Jasminum诞生了

大家应该知道,在之前,如果拖入了一个PDF文件到Zotero中,只有英文文献能够自动识别(Retrieve Metadata),即能够抓取英文文献的元数据,但是中文文献是不支持的。

这是因为Zotero抓取元数据的功能是通过提取英文PDF内的部分文字内容,并和数据库进行对比来实现的。

这导致Zotero对中文PDF的元数据抓取一直没有得到支持。

所以,对于中文文献,大家一般在浏览器端用Zotero Connector来抓取文献的题录以及PDF。

尽管已经能够满足需求,但是知网等中文数据库的Zotero Connector翻译器偶尔会出现bug(不少粉丝和学员都反映),一定程度上影响了使用体验。

今天这一切将迎来改变!

插件Jasminum(中文名:茉莉花)为Zotero带来了中文文献的元数据抓取能力。

下面一起来看看。

在插件JasminumGitHub网页[1],可以看到该插件的功能介绍,也可下载Jasminum插件的xpi文件[2]

(网速不好的,可以在公众号后台回复Jasminum获取插件)

下载插件后,在Zotero进行安装。

Jasminum插件目前主要有三个功能:

  1. 1. 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
  2. 2. 拆分或合并 Zotero 中条目作者姓和名
  3. 3. 为知网的学位论文PDF添加书签

中文文献元数据识别

第一个功能是大家最为关心的,我已经在本文开头用动图进行了效果演示,这里再看一遍。

值得注意的是,目前该插件只支持知网文献的识别,其他中文数据库(比如万方)尚未支持,但是相信知网足以能够满足大部分人需要了。

原理方面,它是通过文献的文件名进行识别和数据库匹配的(不同于Zotero自带的英文文献抓取原理),而且支持PDF和CAJ两种格式。

具体来说,你的文件名需要是以下4种格式之一。

  1. 1. title_author.pdf/caj
  2. 2. title.pdf/caj
  3. 3. titlePart1_titlePart2_author.pdf/caj
  4. 4. titlePart1_titlePart2.pdf/caj

且author的汉字姓名为4字以内。

之所以是以上4种格式,是因为一般从知网下载的文献名称都是以上4种格式之一。

比如这个样子。

下载了中文文献后,将它们拖入Zotero,然后选中文献(单篇或者批量),点击右键菜单中的Retrieving CNKI Metadata,即可完成元数据的抓取。(元数据主要用来参考文献排版)

中英文Zotero下的Jasminum菜单如下。

这里还要提醒一下,由于Jasminum插件是通过文件名来识别的,因此如果文件名不符合上述四种格式是无法识别的。

不过这也代表着:如果你从其他中文数据库(万方)下载了一篇中文文献,且碰巧该文献在知网中也有,那么只要该文献的名称符合上述四种格式,也是可以成功抓取元数据的(亲测)。

以上就是对Jasminum插件的知网中文文献元数据识别功能的介绍,下面介绍一下该插件的第二个功能:作者姓名的拆分或合并。

作者姓名的拆分或合并

一张动图演示下作者姓名的拆分或合并。

关于作者姓名的拆分或合并,是为了方便在PDF命名中完整显示作者的姓名。

之前在下面这篇推文中,介绍过使用ZotFile通配符{%g_}{%y_}{%t}的方法实现该功能。

Zotero文献PDF命名,如何完整显示作者姓名?

我个人更推荐上文中的方法,因为它是全局生效的。Jasminum插件则需要在手动选择文献后,才能完成作者姓名的拆分或合并。

为知网的学位论文PDF添加书签

为知网的学位论文PDF添加书签,需要首先下载PDFtk server

这里就不多介绍了,感兴趣的可以自己捣鼓捣鼓。

下载

Jasminum插件下载青柠学术公众号后台回复关键词Jasminum

致谢

最后,再次感谢开发者l0o0的优秀作品Jasminum

Zotero变得更好用了,Zotero的中文生态更加完善了!

相关链接

[1]

Jasminum插件GitHub主页: https://github.com/l0o0/jasminum

[2]

Jasminum下载: https://github.com/l0o0/jasminum/releases

这是尾巴

读过本文,如果觉得有收获,欢迎点赞转发收藏

发布于 2020-07-30

Zotero

文献管理

知网

点击数:0

重磅!你想要的Zotero中文文献识别!它来了!

重磅!你想要的Zotero中文文献识别!它来了!

青柠学术

浙江大学 信息与电子工程学院博士在读

测试近期,收到一封来自开发者l0o0的GitHub邮件。从邮件中我得知:一个重磅Zotero插件Jasminum诞生了!

为开发者疯狂打call

万众期待的Zotero中文文献识别功能终于来了!

来,直接上结果!

看完结果,下面来细说

重磅插件Jasminum诞生了

大家应该知道,在之前,如果拖入了一个PDF文件到Zotero中,只有英文文献能够自动识别(Retrieve Metadata),即能够抓取英文文献的元数据,但是中文文献是不支持的。

这是因为Zotero抓取元数据的功能是通过提取英文PDF内的部分文字内容,并和数据库进行对比来实现的。

这导致Zotero对中文PDF的元数据抓取一直没有得到支持。

所以,对于中文文献,大家一般在浏览器端用Zotero Connector来抓取文献的题录以及PDF。

尽管已经能够满足需求,但是知网等中文数据库的Zotero Connector翻译器偶尔会出现bug(不少粉丝和学员都反映),一定程度上影响了使用体验。

今天这一切将迎来改变!

插件Jasminum(中文名:茉莉花)为Zotero带来了中文文献的元数据抓取能力。

下面一起来看看。

在插件JasminumGitHub网页[1],可以看到该插件的功能介绍,也可下载Jasminum插件的xpi文件[2]

(网速不好的,可以在公众号后台回复Jasminum获取插件)

下载插件后,在Zotero进行安装。

Jasminum插件目前主要有三个功能:

  1. 1. 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
  2. 2. 拆分或合并 Zotero 中条目作者姓和名
  3. 3. 为知网的学位论文PDF添加书签

中文文献元数据识别

第一个功能是大家最为关心的,我已经在本文开头用动图进行了效果演示,这里再看一遍。

值得注意的是,目前该插件只支持知网文献的识别,其他中文数据库(比如万方)尚未支持,但是相信知网足以能够满足大部分人需要了。

原理方面,它是通过文献的文件名进行识别和数据库匹配的(不同于Zotero自带的英文文献抓取原理),而且支持PDF和CAJ两种格式。

具体来说,你的文件名需要是以下4种格式之一。

  1. 1. title_author.pdf/caj
  2. 2. title.pdf/caj
  3. 3. titlePart1_titlePart2_author.pdf/caj
  4. 4. titlePart1_titlePart2.pdf/caj

且author的汉字姓名为4字以内。

之所以是以上4种格式,是因为一般从知网下载的文献名称都是以上4种格式之一。

比如这个样子。

下载了中文文献后,将它们拖入Zotero,然后选中文献(单篇或者批量),点击右键菜单中的Retrieving CNKI Metadata,即可完成元数据的抓取。(元数据主要用来参考文献排版)

中英文Zotero下的Jasminum菜单如下。

这里还要提醒一下,由于Jasminum插件是通过文件名来识别的,因此如果文件名不符合上述四种格式是无法识别的。

不过这也代表着:如果你从其他中文数据库(万方)下载了一篇中文文献,且碰巧该文献在知网中也有,那么只要该文献的名称符合上述四种格式,也是可以成功抓取元数据的(亲测)。

以上就是对Jasminum插件的知网中文文献元数据识别功能的介绍,下面介绍一下该插件的第二个功能:作者姓名的拆分或合并。

作者姓名的拆分或合并

一张动图演示下作者姓名的拆分或合并。

关于作者姓名的拆分或合并,是为了方便在PDF命名中完整显示作者的姓名。

之前在下面这篇推文中,介绍过使用ZotFile通配符{%g_}{%y_}{%t}的方法实现该功能。

Zotero文献PDF命名,如何完整显示作者姓名?

我个人更推荐上文中的方法,因为它是全局生效的。Jasminum插件则需要在手动选择文献后,才能完成作者姓名的拆分或合并。

为知网的学位论文PDF添加书签

为知网的学位论文PDF添加书签,需要首先下载PDFtk server

这里就不多介绍了,感兴趣的可以自己捣鼓捣鼓。

下载

Jasminum插件下载青柠学术公众号后台回复关键词Jasminum

致谢

最后,再次感谢开发者l0o0的优秀作品Jasminum

Zotero变得更好用了,Zotero的中文生态更加完善了!

相关链接

[1]

Jasminum插件GitHub主页: https://github.com/l0o0/jasminum

[2]

Jasminum下载: https://github.com/l0o0/jasminum/releases

这是尾巴

读过本文,如果觉得有收获,欢迎点赞转发收藏

发布于 2020-07-30

Zotero

文献管理

知网

点击数:0

重磅!你想要的Zotero中文文献识别!它来了!

重磅!你想要的Zotero中文文献识别!它来了!

青柠学术

浙江大学 信息与电子工程学院博士在读

测试近期,收到一封来自开发者l0o0的GitHub邮件。从邮件中我得知:一个重磅Zotero插件Jasminum诞生了!

为开发者疯狂打call

万众期待的Zotero中文文献识别功能终于来了!

来,直接上结果!

看完结果,下面来细说

重磅插件Jasminum诞生了

大家应该知道,在之前,如果拖入了一个PDF文件到Zotero中,只有英文文献能够自动识别(Retrieve Metadata),即能够抓取英文文献的元数据,但是中文文献是不支持的。

这是因为Zotero抓取元数据的功能是通过提取英文PDF内的部分文字内容,并和数据库进行对比来实现的。

这导致Zotero对中文PDF的元数据抓取一直没有得到支持。

所以,对于中文文献,大家一般在浏览器端用Zotero Connector来抓取文献的题录以及PDF。

尽管已经能够满足需求,但是知网等中文数据库的Zotero Connector翻译器偶尔会出现bug(不少粉丝和学员都反映),一定程度上影响了使用体验。

今天这一切将迎来改变!

插件Jasminum(中文名:茉莉花)为Zotero带来了中文文献的元数据抓取能力。

下面一起来看看。

在插件JasminumGitHub网页[1],可以看到该插件的功能介绍,也可下载Jasminum插件的xpi文件[2]

(网速不好的,可以在公众号后台回复Jasminum获取插件)

下载插件后,在Zotero进行安装。

Jasminum插件目前主要有三个功能:

  1. 1. 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
  2. 2. 拆分或合并 Zotero 中条目作者姓和名
  3. 3. 为知网的学位论文PDF添加书签

中文文献元数据识别

第一个功能是大家最为关心的,我已经在本文开头用动图进行了效果演示,这里再看一遍。

值得注意的是,目前该插件只支持知网文献的识别,其他中文数据库(比如万方)尚未支持,但是相信知网足以能够满足大部分人需要了。

原理方面,它是通过文献的文件名进行识别和数据库匹配的(不同于Zotero自带的英文文献抓取原理),而且支持PDF和CAJ两种格式。

具体来说,你的文件名需要是以下4种格式之一。

  1. 1. title_author.pdf/caj
  2. 2. title.pdf/caj
  3. 3. titlePart1_titlePart2_author.pdf/caj
  4. 4. titlePart1_titlePart2.pdf/caj

且author的汉字姓名为4字以内。

之所以是以上4种格式,是因为一般从知网下载的文献名称都是以上4种格式之一。

比如这个样子。

下载了中文文献后,将它们拖入Zotero,然后选中文献(单篇或者批量),点击右键菜单中的Retrieving CNKI Metadata,即可完成元数据的抓取。(元数据主要用来参考文献排版)

中英文Zotero下的Jasminum菜单如下。

这里还要提醒一下,由于Jasminum插件是通过文件名来识别的,因此如果文件名不符合上述四种格式是无法识别的。

不过这也代表着:如果你从其他中文数据库(万方)下载了一篇中文文献,且碰巧该文献在知网中也有,那么只要该文献的名称符合上述四种格式,也是可以成功抓取元数据的(亲测)。

以上就是对Jasminum插件的知网中文文献元数据识别功能的介绍,下面介绍一下该插件的第二个功能:作者姓名的拆分或合并。

作者姓名的拆分或合并

一张动图演示下作者姓名的拆分或合并。

关于作者姓名的拆分或合并,是为了方便在PDF命名中完整显示作者的姓名。

之前在下面这篇推文中,介绍过使用ZotFile通配符{%g_}{%y_}{%t}的方法实现该功能。

Zotero文献PDF命名,如何完整显示作者姓名?

我个人更推荐上文中的方法,因为它是全局生效的。Jasminum插件则需要在手动选择文献后,才能完成作者姓名的拆分或合并。

为知网的学位论文PDF添加书签

为知网的学位论文PDF添加书签,需要首先下载PDFtk server

这里就不多介绍了,感兴趣的可以自己捣鼓捣鼓。

下载

Jasminum插件下载青柠学术公众号后台回复关键词Jasminum

致谢

最后,再次感谢开发者l0o0的优秀作品Jasminum

Zotero变得更好用了,Zotero的中文生态更加完善了!

相关链接

[1]

Jasminum插件GitHub主页: https://github.com/l0o0/jasminum

[2]

Jasminum下载: https://github.com/l0o0/jasminum/releases

这是尾巴

读过本文,如果觉得有收获,欢迎点赞转发收藏

发布于 2020-07-30

Zotero

文献管理

知网

点击数:0

重磅!你想要的Zotero中文文献识别!它来了!

重磅!你想要的Zotero中文文献识别!它来了!

青柠学术

浙江大学 信息与电子工程学院博士在读

测试近期,收到一封来自开发者l0o0的GitHub邮件。从邮件中我得知:一个重磅Zotero插件Jasminum诞生了!

为开发者疯狂打call

万众期待的Zotero中文文献识别功能终于来了!

来,直接上结果!

看完结果,下面来细说

重磅插件Jasminum诞生了

大家应该知道,在之前,如果拖入了一个PDF文件到Zotero中,只有英文文献能够自动识别(Retrieve Metadata),即能够抓取英文文献的元数据,但是中文文献是不支持的。

这是因为Zotero抓取元数据的功能是通过提取英文PDF内的部分文字内容,并和数据库进行对比来实现的。

这导致Zotero对中文PDF的元数据抓取一直没有得到支持。

所以,对于中文文献,大家一般在浏览器端用Zotero Connector来抓取文献的题录以及PDF。

尽管已经能够满足需求,但是知网等中文数据库的Zotero Connector翻译器偶尔会出现bug(不少粉丝和学员都反映),一定程度上影响了使用体验。

今天这一切将迎来改变!

插件Jasminum(中文名:茉莉花)为Zotero带来了中文文献的元数据抓取能力。

下面一起来看看。

在插件JasminumGitHub网页[1],可以看到该插件的功能介绍,也可下载Jasminum插件的xpi文件[2]

(网速不好的,可以在公众号后台回复Jasminum获取插件)

下载插件后,在Zotero进行安装。

Jasminum插件目前主要有三个功能:

  1. 1. 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
  2. 2. 拆分或合并 Zotero 中条目作者姓和名
  3. 3. 为知网的学位论文PDF添加书签

中文文献元数据识别

第一个功能是大家最为关心的,我已经在本文开头用动图进行了效果演示,这里再看一遍。

值得注意的是,目前该插件只支持知网文献的识别,其他中文数据库(比如万方)尚未支持,但是相信知网足以能够满足大部分人需要了。

原理方面,它是通过文献的文件名进行识别和数据库匹配的(不同于Zotero自带的英文文献抓取原理),而且支持PDF和CAJ两种格式。

具体来说,你的文件名需要是以下4种格式之一。

  1. 1. title_author.pdf/caj
  2. 2. title.pdf/caj
  3. 3. titlePart1_titlePart2_author.pdf/caj
  4. 4. titlePart1_titlePart2.pdf/caj

且author的汉字姓名为4字以内。

之所以是以上4种格式,是因为一般从知网下载的文献名称都是以上4种格式之一。

比如这个样子。

下载了中文文献后,将它们拖入Zotero,然后选中文献(单篇或者批量),点击右键菜单中的Retrieving CNKI Metadata,即可完成元数据的抓取。(元数据主要用来参考文献排版)

中英文Zotero下的Jasminum菜单如下。

这里还要提醒一下,由于Jasminum插件是通过文件名来识别的,因此如果文件名不符合上述四种格式是无法识别的。

不过这也代表着:如果你从其他中文数据库(万方)下载了一篇中文文献,且碰巧该文献在知网中也有,那么只要该文献的名称符合上述四种格式,也是可以成功抓取元数据的(亲测)。

以上就是对Jasminum插件的知网中文文献元数据识别功能的介绍,下面介绍一下该插件的第二个功能:作者姓名的拆分或合并。

作者姓名的拆分或合并

一张动图演示下作者姓名的拆分或合并。

关于作者姓名的拆分或合并,是为了方便在PDF命名中完整显示作者的姓名。

之前在下面这篇推文中,介绍过使用ZotFile通配符{%g_}{%y_}{%t}的方法实现该功能。

Zotero文献PDF命名,如何完整显示作者姓名?

我个人更推荐上文中的方法,因为它是全局生效的。Jasminum插件则需要在手动选择文献后,才能完成作者姓名的拆分或合并。

为知网的学位论文PDF添加书签

为知网的学位论文PDF添加书签,需要首先下载PDFtk server

这里就不多介绍了,感兴趣的可以自己捣鼓捣鼓。

下载

Jasminum插件下载青柠学术公众号后台回复关键词Jasminum

致谢

最后,再次感谢开发者l0o0的优秀作品Jasminum

Zotero变得更好用了,Zotero的中文生态更加完善了!

相关链接

[1]

Jasminum插件GitHub主页: https://github.com/l0o0/jasminum

[2]

Jasminum下载: https://github.com/l0o0/jasminum/releases

这是尾巴

读过本文,如果觉得有收获,欢迎点赞转发收藏

发布于 2020-07-30

Zotero

文献管理

知网

点击数:0

重磅!你想要的Zotero中文文献识别!它来了!

重磅!你想要的Zotero中文文献识别!它来了!

青柠学术

浙江大学 信息与电子工程学院博士在读

测试近期,收到一封来自开发者l0o0的GitHub邮件。从邮件中我得知:一个重磅Zotero插件Jasminum诞生了!

为开发者疯狂打call

万众期待的Zotero中文文献识别功能终于来了!

来,直接上结果!

看完结果,下面来细说

重磅插件Jasminum诞生了

大家应该知道,在之前,如果拖入了一个PDF文件到Zotero中,只有英文文献能够自动识别(Retrieve Metadata),即能够抓取英文文献的元数据,但是中文文献是不支持的。

这是因为Zotero抓取元数据的功能是通过提取英文PDF内的部分文字内容,并和数据库进行对比来实现的。

这导致Zotero对中文PDF的元数据抓取一直没有得到支持。

所以,对于中文文献,大家一般在浏览器端用Zotero Connector来抓取文献的题录以及PDF。

尽管已经能够满足需求,但是知网等中文数据库的Zotero Connector翻译器偶尔会出现bug(不少粉丝和学员都反映),一定程度上影响了使用体验。

今天这一切将迎来改变!

插件Jasminum(中文名:茉莉花)为Zotero带来了中文文献的元数据抓取能力。

下面一起来看看。

在插件JasminumGitHub网页[1],可以看到该插件的功能介绍,也可下载Jasminum插件的xpi文件[2]

(网速不好的,可以在公众号后台回复Jasminum获取插件)

下载插件后,在Zotero进行安装。

Jasminum插件目前主要有三个功能:

  1. 1. 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
  2. 2. 拆分或合并 Zotero 中条目作者姓和名
  3. 3. 为知网的学位论文PDF添加书签

中文文献元数据识别

第一个功能是大家最为关心的,我已经在本文开头用动图进行了效果演示,这里再看一遍。

值得注意的是,目前该插件只支持知网文献的识别,其他中文数据库(比如万方)尚未支持,但是相信知网足以能够满足大部分人需要了。

原理方面,它是通过文献的文件名进行识别和数据库匹配的(不同于Zotero自带的英文文献抓取原理),而且支持PDF和CAJ两种格式。

具体来说,你的文件名需要是以下4种格式之一。

  1. 1. title_author.pdf/caj
  2. 2. title.pdf/caj
  3. 3. titlePart1_titlePart2_author.pdf/caj
  4. 4. titlePart1_titlePart2.pdf/caj

且author的汉字姓名为4字以内。

之所以是以上4种格式,是因为一般从知网下载的文献名称都是以上4种格式之一。

比如这个样子。

下载了中文文献后,将它们拖入Zotero,然后选中文献(单篇或者批量),点击右键菜单中的Retrieving CNKI Metadata,即可完成元数据的抓取。(元数据主要用来参考文献排版)

中英文Zotero下的Jasminum菜单如下。

这里还要提醒一下,由于Jasminum插件是通过文件名来识别的,因此如果文件名不符合上述四种格式是无法识别的。

不过这也代表着:如果你从其他中文数据库(万方)下载了一篇中文文献,且碰巧该文献在知网中也有,那么只要该文献的名称符合上述四种格式,也是可以成功抓取元数据的(亲测)。

以上就是对Jasminum插件的知网中文文献元数据识别功能的介绍,下面介绍一下该插件的第二个功能:作者姓名的拆分或合并。

作者姓名的拆分或合并

一张动图演示下作者姓名的拆分或合并。

关于作者姓名的拆分或合并,是为了方便在PDF命名中完整显示作者的姓名。

之前在下面这篇推文中,介绍过使用ZotFile通配符{%g_}{%y_}{%t}的方法实现该功能。

Zotero文献PDF命名,如何完整显示作者姓名?

我个人更推荐上文中的方法,因为它是全局生效的。Jasminum插件则需要在手动选择文献后,才能完成作者姓名的拆分或合并。

为知网的学位论文PDF添加书签

为知网的学位论文PDF添加书签,需要首先下载PDFtk server

这里就不多介绍了,感兴趣的可以自己捣鼓捣鼓。

下载

Jasminum插件下载青柠学术公众号后台回复关键词Jasminum

致谢

最后,再次感谢开发者l0o0的优秀作品Jasminum

Zotero变得更好用了,Zotero的中文生态更加完善了!

相关链接

[1]

Jasminum插件GitHub主页: https://github.com/l0o0/jasminum

[2]

Jasminum下载: https://github.com/l0o0/jasminum/releases

这是尾巴

读过本文,如果觉得有收获,欢迎点赞转发收藏

发布于 2020-07-30

Zotero

文献管理

知网

点击数:0

重磅!你想要的Zotero中文文献识别!它来了!

重磅!你想要的Zotero中文文献识别!它来了!

青柠学术

浙江大学 信息与电子工程学院博士在读

测试近期,收到一封来自开发者l0o0的GitHub邮件。从邮件中我得知:一个重磅Zotero插件Jasminum诞生了!

为开发者疯狂打call

万众期待的Zotero中文文献识别功能终于来了!

来,直接上结果!

看完结果,下面来细说

重磅插件Jasminum诞生了

大家应该知道,在之前,如果拖入了一个PDF文件到Zotero中,只有英文文献能够自动识别(Retrieve Metadata),即能够抓取英文文献的元数据,但是中文文献是不支持的。

这是因为Zotero抓取元数据的功能是通过提取英文PDF内的部分文字内容,并和数据库进行对比来实现的。

这导致Zotero对中文PDF的元数据抓取一直没有得到支持。

所以,对于中文文献,大家一般在浏览器端用Zotero Connector来抓取文献的题录以及PDF。

尽管已经能够满足需求,但是知网等中文数据库的Zotero Connector翻译器偶尔会出现bug(不少粉丝和学员都反映),一定程度上影响了使用体验。

今天这一切将迎来改变!

插件Jasminum(中文名:茉莉花)为Zotero带来了中文文献的元数据抓取能力。

下面一起来看看。

在插件JasminumGitHub网页[1],可以看到该插件的功能介绍,也可下载Jasminum插件的xpi文件[2]

(网速不好的,可以在公众号后台回复Jasminum获取插件)

下载插件后,在Zotero进行安装。

Jasminum插件目前主要有三个功能:

  1. 1. 根据知网上下载的文献文件来抓取引用信息(就是根据文件名)
  2. 2. 拆分或合并 Zotero 中条目作者姓和名
  3. 3. 为知网的学位论文PDF添加书签

中文文献元数据识别

第一个功能是大家最为关心的,我已经在本文开头用动图进行了效果演示,这里再看一遍。

值得注意的是,目前该插件只支持知网文献的识别,其他中文数据库(比如万方)尚未支持,但是相信知网足以能够满足大部分人需要了。

原理方面,它是通过文献的文件名进行识别和数据库匹配的(不同于Zotero自带的英文文献抓取原理),而且支持PDF和CAJ两种格式。

具体来说,你的文件名需要是以下4种格式之一。

  1. 1. title_author.pdf/caj
  2. 2. title.pdf/caj
  3. 3. titlePart1_titlePart2_author.pdf/caj
  4. 4. titlePart1_titlePart2.pdf/caj

且author的汉字姓名为4字以内。

之所以是以上4种格式,是因为一般从知网下载的文献名称都是以上4种格式之一。

比如这个样子。

下载了中文文献后,将它们拖入Zotero,然后选中文献(单篇或者批量),点击右键菜单中的Retrieving CNKI Metadata,即可完成元数据的抓取。(元数据主要用来参考文献排版)

中英文Zotero下的Jasminum菜单如下。

这里还要提醒一下,由于Jasminum插件是通过文件名来识别的,因此如果文件名不符合上述四种格式是无法识别的。

不过这也代表着:如果你从其他中文数据库(万方)下载了一篇中文文献,且碰巧该文献在知网中也有,那么只要该文献的名称符合上述四种格式,也是可以成功抓取元数据的(亲测)。

以上就是对Jasminum插件的知网中文文献元数据识别功能的介绍,下面介绍一下该插件的第二个功能:作者姓名的拆分或合并。

作者姓名的拆分或合并

一张动图演示下作者姓名的拆分或合并。

关于作者姓名的拆分或合并,是为了方便在PDF命名中完整显示作者的姓名。

之前在下面这篇推文中,介绍过使用ZotFile通配符{%g_}{%y_}{%t}的方法实现该功能。

Zotero文献PDF命名,如何完整显示作者姓名?

我个人更推荐上文中的方法,因为它是全局生效的。Jasminum插件则需要在手动选择文献后,才能完成作者姓名的拆分或合并。

为知网的学位论文PDF添加书签

为知网的学位论文PDF添加书签,需要首先下载PDFtk server

这里就不多介绍了,感兴趣的可以自己捣鼓捣鼓。

下载

Jasminum插件下载青柠学术公众号后台回复关键词Jasminum

致谢

最后,再次感谢开发者l0o0的优秀作品Jasminum

Zotero变得更好用了,Zotero的中文生态更加完善了!

相关链接

[1]

Jasminum插件GitHub主页: https://github.com/l0o0/jasminum

[2]

Jasminum下载: https://github.com/l0o0/jasminum/releases

这是尾巴

读过本文,如果觉得有收获,欢迎点赞转发收藏

发布于 2020-07-30

Zotero

文献管理

知网

点击数:0