口腔医学小站

口腔文献阅读与资源分享

2024年3月17日
发表者 kimi1006
暂无评论

文献管理神器 Zotero – 参考文献格式 CSL 文件编辑 – 不秃燃的小老弟 – 博客园

文献管理神器 Zotero – 参考文献格式 CSL 文件编辑

下面均以 GB T 7714-2015 numeric 为栗,且以 记事本 打开 CSL 文件进行演示。

编辑时,一定先把原有 CSL 文件 复制粘贴出来不是在zotero数据存储文件夹内!!!

再将 titleid 代码之间的名称重新修改成一个新的名称!!!举个栗子如下:

<title>GB/T 7714-2015 (numeric, 10)</title>
<id>>http://www.zotero.org/styles/china-national-standard-gb-t-7714-2015-numeric10</id>

1)支持中/英文双语混排(即分别显示 等/et al)

步骤:滑至文档最后 或 查找『layout locale』内容,取消对应的注释代码,

即删除 <layout locale=”en”> 前面的『<!–』 和 </layout> 后面的『–>

最终代码如下所示:

<layout locale=”en”>
<text variable=”citation-number” prefix=”[” suffix=”]”/>
<text macro=”entry-layout”/>
</layout>

2)作者姓名是全部显示/部分显示(即显示前几位)

01 全部显示:

步骤:查找『et-al-use-first』内容,修改 et-al-use-first 后面的数字为 550

et-al-use-first 需满足大于 et-al-min 后面的数字,或是一个超级大大的数字

最终代码如下所示:

<bibliography entry-spacing=”0″ et-al-min=”4″ et-al-use-first=”50″ second-field-align=”flush”>

02 部分显示:

步骤:查找『et-al-use-first』内容,修改 et-al-min 后面数字为 6

et-al-use-first 后面数字为 5,即显示前 5 位作者的姓名,

同理显示前 6 位作者姓名为 et-al-min=”7″ et-al-use-first=”6″

最终代码如下所示:

<bibliography entry-spacing=”0″ et-al-min=”6″ et-al-use-first=”5″ second-field-align=”flush”>

3)作者的等/et al 前面不显示逗号(或其它标点)

步骤:滑至文档最开头,

<style xmlns= …… default-locale=”zh-CN”> 内,敲个空格,

再添加 delimiter-precedes-et-al=”never” 内容

注:这个方法也同时实现『』字和前面的作者是 无空格

最终代码如下所示:

<style xmlns=”http://purl.org/net/xbiblio/csl” version=”1.0″ class=”in-text” …… default-locale=”zh-CN” delimiter-precedes-et-al=”never”>

4)不显示参考文献的类型(即没有 [J] 等内容)

步骤:查找『type-code』内容,将『type-code』这部分代码删除 或 变成注释。

即在 <macro name=”type-code”> 前面添加『<!–』 和 </macro> 后面添加『–>

注:重要!!!所有删除的地方也可变成 注释 ,不会被识别以便之后变为原来格式

(变成注释操作:在删除的地方的前面添加『<!–』和后面添加『–>』)

最终代码如下所示:
<!–<macro name=”type-code”>
<group delimiter=”/”>
<choose>
<if type=”article”>
…………
<if variable=”URL DOI” match=”any”>
<text value=”OL”/>
</if>
</choose>
</group>
</macro>–>

 

5)参考文献尾注是数字序号部分实现对齐(如序号1-9和10后面对齐)

步骤:滑至文档最后 或 查找『bibliography』内容,

在『〈bibliography…〉』里面,添加代码 second-field-align=”flush”

最终代码如下所示:

<bibliography entry-spacing=”0″ et-al-min=”6″ et-al-use-first=”5″ second-field-align=”flush”>

6)页码/日期之间的分隔符显示不同格式的横杠(或其它标点)

01 页码之间:

步骤:查找『page-range』修改 <term name=”page-range-delimiter”></term> 之间标点。

如果没有 <term name=”page-range-delimiter”> 内容,可添加这三行最终代码,标点可自改。

最终代码如下所示:

<terms>
<term name=”page-range-delimiter”>-</term>
</terms>

02 日期之间:

步骤:查找『accessed-date』,修改 delimiter 后面的标点符号,

这里是 delimiter=”—”  假如日期之间分隔符修改为逗号『』,则变为 delimiter=”,”

注:在XML语言里面,— 代表 — (可自查XML特殊字符表)

最终代码如下所示:

<date variable=”accessed” delimiter=”—” form=”numeric” prefix=”[” suffix=”]”/>

另外有些CSL文件不在『accessed-date』,在『year』『month』等地方,

则需要修改后面的 range-delimiter=”—”  (同上)

7)添加/删除参考文献最末尾的句点(或其它标点)

步骤:滑至文档最后 或 查找『layout』内容,在『〈layout…〉』里面,找到 suffix 

将标点更换为自己所需的其它标点,如果没有 suffix,则添加代码 suffix=”.”

注:删除参考文献最末尾的句点,则删除此处的代码 suffix=”.”

最终代码如下所示:(此处是中英文双语混排,所以修改增加两处 suffix=”.”

<layout suffix=”.” locale=”en”>
<text variable=”citation-number” prefix=”[” suffix=”]”/>
<text macro=”entry-layout”/>
</layout>
<layout suffix=”.”>
<text variable=”citation-number” prefix=”[” suffix=”]”/>
<text macro=”entry-layout”/>

另外有些CSL文件『〈layout…〉』里面没有代码 suffix=”.” ,那么删除参考文献最末尾的句点,

则需要找到不同文献类型设置的地方,如下图是专利文献,也是删除代码 suffix=”.” 即可。

8)外文作者姓名取消全大写(即作者姓名为首字母大写)

步骤:查找『text-case=”uppercase”

01 如果仅在 family 这行删除 text-case=”uppercase”  则作者的『』 取消全大写。

02 如果仅在 given  这行删除 text-case=”uppercase”  则作者的『』  取消全大写。

03 如果在 familygiven 两行都删除 text-case=”uppercase”  则作者的 『姓和名』 取消全大写。

注:如还无法显示作者姓名为首字母大写,则在原有是 text-case=”uppercase” 的地方,

添加 text-case=”capitalize-first”

最终代码如下所示:

<name-part name=”family”/>
<name-part name=”given”/>

9)外文作者姓名显示全称(即作者姓名全部显示)

步骤:查找『macro name=”author”』,

在下方〈name〉里面添加 initialize=”false”

最终代码如下所示:

<name initialize=”false”>

另外专著等文献类型,可能有单独设置作者姓名的地方,找到对应位置,

在下方〈name〉里面添加 initialize=”false”

10)外文文献作者姓名顺序颠倒(即作者名在前 姓在后)

步骤:滑至文档最开头,在 <style xmlns= …… default-locale=”zh-CN”> 内,

查找到『name-as-sort-order=”all”』,将其内的 all 删除

最终代码如下所示:

<name-as-sort-order=”” >

11)期刊文献类型 [J/OL] 全部修改成 [J](即不显示 DOI)

 

如上是从知网或其它数据库抓取到的期刊文献,有的会显示 [J/OL] 

如果需要将 [J/OL] 全部修改成 [J](即不显示 DOI),提供了 2 种方法:

法一 

步骤:查找『文献类型标识』或『type-code』,找到下图所在位置,

<if variable=”URL DOI” match=”any”> 里面的 DOI 删除以及

<text variable=”DOI” prefix=”DOI:”/> 删除(即下方黄色方框内容)

注:重要!!!删除的地方可变成 注释 ,不会被识别以便之后变为原来格式

(变成注释操作:在删除的地方的前面添加『<!–』和后面添加『–>』)

最终代码如下所示:

<choose>
<if variable=”URL” match=”any”>
<text value=”OL”/>
</if>
</choose>
</group>
</macro>
<!– 获取和访问路径以及 DOI –>
<macro name=”url-doi”>
<group delimiter=”. “>
<text variable=”URL”/>
</group>
</macro>

法二

步骤:查找『文献类型标识』或『type-code』,

找到下图所在位置,删除下方蓝色方框内容

注:重要!!!所有删除的地方也可变成 注释 ,

这样不会识别,可方便之后想变为原来的格式。

(变成注释操作:在删除的地方前面添加『<!–』和后面添加『–>』)

<choose>
<if variable=”URL DOI” match=”any”>
<text value=”OL”/>
</if>
</choose>

<text variable=”DOI” prefix=”DOI:”/>

注:但是 法二 方法因多删除关于 OL 代码,

会造成其它如 [D/OL] 全部变成 [D] 等等

最终代码如下所示:
</group>
</macro>
<!– 获取和访问路径以及 DOI –>
<macro name=”url-doi”>
<group delimiter=”. “>
<text variable=”URL”/>
</group>
</macro>

12)所有文献类型全部不显示 [/OL] (即不显示 URL 和 DOI)

 

如上是从知网或其它数据库抓取到的期刊文献,有的会显示 [J/OL][D/OL] 等等

如果需要将 [J/OL][D/OL] 等等全部修改成 [J][D] 等等(即不显示 URLDOI

第一步:

[J/OL][D/OL] 等后面不显示 URLDOI,但是保留不变 [J/OL][D/OL]

步骤:查找『获取和访问路径以及 DOI』或『url-doi』,找到下图位置,删除下方黄色方框

注:重要!!!所有删除的地方也可变成 注释 ,不会被识别,以便之后变为原来格式

(变成注释操作:在删除的地方的前面添加『<!–』和后面添加『–>』)

<text variable=”URL”/>
<text variable=”DOI” prefix=”DOI:”/>

最终代码如下所示:

<!– 获取和访问路径以及 DOI –>
<macro name=”url-doi”>
<group delimiter=”. “>
</group>
</macro>

第二步:

[J/OL] 、[D/OL] 等后面不显示 URL 和 DOI,同时全部修改成 [J][D] 等(如下图所示)

 

步骤:查找『获取和访问路径以及 DOI』或『url-doi』,找到下图位置,删除下方蓝色方框

注:重要!!!所有删除的地方也可变成 注释 ,不会被识别以便之后变为原来格式

(变成注释操作:在删除的地方的前面添加『<!–』和后面添加『–>』)

<choose>
<if variable=”URL DOI” match=”any”>
<text value=”OL”/>
</if>
</choose>

<macro name=”url-doi”>
<group delimiter=”. “>
<text variable=”URL”/>
<text variable=”DOI” prefix=”DOI:”/>
</group>
</macro>

最终代码如下所示:

<else-if type=”thesis”>
<text value=”D”/>
</else-if>
<else>
<text value=”Z”/>
</else>
</choose>
</group>
</macro>
<!– 获取和访问路径以及 DOI –>
<!– 连续出版物的年卷期 –>
<macro name=”year-volume-issue”>

13)文献类型全部不显示引用日期 (即不显示如 [2022-10-27] )

 

如上是从知网或其它数据库抓取到的期刊文献,有的会在学位论文显示 [2022-10-27] 

如果需要将所有文献类型全部不显示引用日期,不显示如 [2022-10-27](如下图所示)

 

步骤:查找『引用日期』或『accessed-date』,找到下图位置,删除下方蓝色标注内容

注:重要!!!所有删除的地方也可变成 注释 ,不会被识别,以便之后变为原来格式

(变成注释操作:在删除的地方的前面添加『<!–』和后面添加『–>』)

<macro name=”accessed-date”>
<date variable=”accessed” form=”numeric” prefix=”[” suffix=”]”/>
</macro>

最终代码如下所示:

<term name=”page-range-delimiter”>-</term>
</terms>
</locale>
<!– 引用日期 –>
<!– 主要责任者 –>
<macro name=”author”>
<names variable=”author”>

14)参考文献表的外文文献如何显示斜体的 et al.

步骤:查找『macro name=”author”』或『names variable=”author”』,找到下图所在位置,

 在 <names variable=”author”> 和 <name> 之间添加下列代码:

 <et-al term=”et al. ” font-style=”italic”/>

最终代码如下所示:

  <!– 主要责任者 –>
  <macro name=”author”>
    <names variable=”author”>
     <et-al term=”et al. ” font-style=”italic”/>
      <name>
        <name-part name=”family” text-case=”uppercase”/>
        <name-part name=”given”/>
      </name>
      <substitute>
        <names variable=”composer”/>
        <names variable=”illustrator”/>
        <names variable=”director”/>
        <choose>

15)外文文献作者姓名全部大写(即不仅仅首字母大写)

 步骤:查找『macro name=”author”』或『names variable=”author”』,找到下图所在位置,

在 <name-part name=”family”/> 里面添加下列代码:

 text-case=”uppercase”

注:一般只在family处添加 text-case=”uppercase” 使其 『』变大写,

多数情况下,given即『』只写首字母,默认为『』首字母。

(当燃如果需姓名全称,需按照本博客的 9)方法 变成 <name initialize=”false”>

使其姓名全称,名再变成 <name-part name=”given” text-case=”uppercase”/>

最终代码如下所示:

  <!– 主要责任者 –>
  <macro name=”author”>
    <names variable=”author”>
     <et-al term=”et al. ” font-style=”italic”/>
      <name>
        <name-part name=”family” text-case=”uppercase”/>
        <name-part name=”given”/>
      </name>
      <substitute>
        <names variable=”composer”/>
        <names variable=”illustrator”/>
        <names variable=”director”/>
        <choose>

16)参考文献表的序号显示为 1.(即不为中括号 [1])

 步骤:滑到最后或查找『bibliography』,找到下图所在位置,

将 <layout locale=”en”> </layout> 之间的

<text variable=”citation-number” prefix=”[” suffix=”]”/>

变成如下代码(如有2个text variable=”citation-number”…两个都需更换):

<text variable=”citation-number” prefix=”” suffix=”.”/>

最终代码如下所示:

  <bibliography entry-spacing=”0″ et-al-min=”4″ et-al-use-first=”3″ second-field-align=”flush”>
    <!– 取消这部分注释可以使用 CSL-M 的功能支持双语 –>
   <layout locale=”en”>
      <text variable=”citation-number” prefix=”” suffix=”.”/>
     <text macro=”entry-layout”/>
    </layout>
    <layout>
      <text variable=”citation-number” prefix=”” suffix=”.”/>
      <text macro=”entry-layout”/>
    </layout>
  </bibliography>
</style>

17)参考文献表如何设为1.25倍行间距(或1.5倍等等)

 步骤:滑到最后或查找『bibliography』,找到下图所在位置,

<bibliography entry-spacing=”0″ et-al-min=”4″ ……> 里面
添加这个代码:
line-spacing=”1.25″

最终代码如下所示:

  <bibliography entry-spacing=”0″ et-al-min=”4″ et-al-use-first=”3″ line-spacing=”1.25″ second-field-align=”flush”>
    <!– 取消这部分注释可以使用 CSL-M 的功能支持双语 –>
   <layout locale=”en”>
      <text variable=”citation-number” prefix=”[” suffix=”]”/>
     <text macro=”entry-layout”/>
    </layout>
    <layout>
      <text variable=”citation-number” prefix=”[” suffix=”]”/>
      <text macro=”entry-layout”/>
    </layout>
  </bibliography>
</style>

18)参考文献表第二行显示为悬挂缩进(针对前面没有序号)

 步骤:滑到最后或查找『bibliography』,找到下图所在位置,

在 <bibliography entry-spacing=”0″ et-al-min=”4″ ……> 里面
添加这个代码:
hanging-indent=”true”

最终代码如下所示:

  <!– 参考文献表 –>
  <bibliography entry-spacing=”0″ et-al-min=”4″ et-al-use-first=”3″ second-field-align=”flush” hanging-indent=”true”>
    <sort>
      <key macro=”author”/>
      <key macro=”issued-year”/>
    </sort>
    <layout suffix=”.” locale=”en”>
      <text variable=”” prefix=”” suffix=””/>
      <text macro=”bib-full-en”/>
    </layout>
    <layout suffix=”.”>
      <text variable=”” prefix=”” suffix=””/>
      <text macro=”bib-full”/>
    </layout>
  </bibliography>
</style>

 采用上图及其代码,参考文献表的显示如下图所示:

参考文献第二行 悬挂缩进,前面 无序号 且按作者 首字母和年份 排序。

19)(作者, 年份)参考文献表如何按首字母和年份排序

 步骤:滑到最后或查找『bibliography』,找到下图所在位置,

在 <bibliography entry-spacing=”0″ et-al-min=”4″ ……> 下面
增加几行这个代码:
    <sort>
      <key macro=”author”/>
      <key macro=”issued-year”/>
    </sort>
前提是:这个CSL文件最后的『引文』首先是显示为『(作者, 年份)』类型 ,
如果不是,将『引文』即<citation…> …</citation> 代码首先进行替换更改 。
注:可找个『引文』部分显示为『(作者, 年份)』 的CSL文件,
将后面『引文』即 <citation…> …</citation> 代码部分复制粘贴过来,
全部替换原有的 『顺序编码 即[1]…』 类型的代码,或自取下方代码。
最终代码如下所示:
<!– 引文 –>
  <citation et-al-min=”2″ et-al-use-first=”1″ disambiguate-add-year-suffix=”true” collapse=”year”>
    <sort>
      <key macro=”author-intext”/>
      <key macro=”issue-date-year” sort=”ascending”/>
    </sort>
    <layout locale=”en” prefix=”(” suffix=”)” delimiter=”; “>
      <group delimiter=”,”>
        <text macro=”author-intext”/>
        <text macro=”issue-date-year”/>
        <group>
          <label variable=”locator” form=”short”/>
          <text variable=”locator”/>
        </group>
      </group>
    </layout>
    <layout delimiter=”; ” prefix=”(” suffix=”)”>
      <group delimiter=”,”>
        <text macro=”author-intext-long”/>
        <text macro=”issue-date-year”/>
        <group>
          <label variable=”locator” form=”short”/>
          <text variable=”locator”/>
        </group>
      </group>
    </layout>
  </citation>
  <!– 参考文献表 –>
  <bibliography entry-spacing=”0″ et-al-min=”4″ et-al-use-first=”3″ second-field-align=”flush”>
    <sort>
      <key macro=”author”/>
      <key macro=”issued-year”/>
    </sort>
    <layout locale=”en”>
      <text variable=”citation-number” prefix=”[” suffix=”]”/>
      <text macro=”bib-entry-en” suffix=”.”/>
    </layout>
    <layout>
      <text variable=”citation-number” prefix=”[” suffix=”]”/>
      <text macro=”bib-entry-zh” suffix=”.”/>
    </layout>
  </bibliography>
</style>

 

20)(作者, 年份)类型的引文中的 et al. 如何斜体

 步骤:查找『author-intext』,找到下图所在位置,

 在 <names variable=”author”> 下面

增加一行这个代码:
<et-al term=”et al. ” font-style=”italic”/>
前提是:这个CSL文件最后的『引文』首先是显示为『(作者, 年份)』类型 ,
如果不是,将『引文』即<citation…> …</citation> 代码首先进行替换更改 。
注:可找个『引文』部分显示为『(作者, 年份)』 的CSL文件,
将后面『引文』即 <citation…> …</citation> 代码部分复制粘贴过来,
替换原有的 『顺序编码 即[1]…』 的代码,或自取 本博客19)方法 的代码。
最终代码如下所示:
  <macro name=”author-intext”>
    <choose>
      <if variable=”author”>
        <names variable=”author”>
         <et-al term=”et al. ” font-style=”italic”/>
          <name form=”short” delimiter=” ” and=”text” et-al-min=”3″/>
        </names>

 

以上这篇博客的内容均来自

不秃燃的小老弟 的CSDN博客(本人)

http://t.csdn.cn/NJXU5

欢迎踏入『Zotero互帮互助江湖』!

幸会幸会!既然已踏入『Zotero互帮互助江湖』

江湖有江湖的规矩呐~ 请各位侠客务必认真阅览!

1)听说侠客有专属称呼,不妨给自己起一个吧!

2)身为侠客须知书达礼,不燃难以立足于江湖!

3)当燃侠客最重侠肝义胆,快来行侠仗义互助吧!

群主既不作大哥许久啦,曾经哥也不是传说哈哈!

江湖内有免费秘籍自取,详见自查另一份群公告,

祝各位们都能笑傲江湖!!!

__EOF__

Measure
Measure

点击数:0

2024年3月6日
发表者 kimi1006
暂无评论

【R语言】热图绘制-heatmap函数

【R语言】热图绘制-heatmap函数

原创

生信交流平台


生信交流平台

2021-08-03 20:06

前面给大家介绍过

1.超详细的热图绘制教程(5000余字),真正的保姆级教程

2.R语言绘制基因表达热图(简易版)

3.一个R函数搞定风险评估散点图,热图

4.R绘制甲基化和表达谱联合分析热图

有小伙伴留言问,绘制热图的数据从哪里来?

    其实每一张热图后面都对应一个表达矩阵。如上图所示,每一行是一个基因,每一列是一个样本。每一个小的色块,就是这个基因在这个样本中的表达量。只是这里用颜色的深浅来表示基因表达值的高低而已,颜色越红,表达值越高。颜色越蓝表达值越低。

    也就是说绘制热图的原始数据就是一个表达矩阵。这个表达矩阵理论上可以包含所有基因,但在实际应用中,一般会去挑选差异表达的基因。因为绘制热图的一个目的,也是为了展示和检查挑选出的差异表达基因是否能够很好的将不同类型的样本区分开,这里有tumor和normal两种类型的样本。从图中我们可以看到,挑选出的差异表达基因能够很好的将tumor样本和normal样本区分开来。

下面我们结合一个具体的例子来讲解如何使用R的heatmap函数绘制热图

#读取所有miRNA的表达矩阵expr=read.table("miRNA_expr.txt",header=T,row.names=1,sep="t")#读取差异表达分析结果#差异表达分析可以参考 https://ke.qq.com/course/package/37513deg=read.table("MIR_DEG_fc_2.5_pval_0.01.txt",header=T,row.names = 1,sep="t")#设置样本类型type=factor(rep(c("CR","CC"),each=3))#提取差异表达miRNA的名字miRNA=rownames(deg)#提取差异表达miRNA对应的表达矩阵data=as.matrix(expr[miRNA,])#绘制热图heatmap(data,        cexCol = 1,  #设置列标签字体大小        scale="row"  #按行做归一化        )

得到热图如下

这个热图是使用默认配色方案来绘制的,前面我给大家介绍过

R语言中的颜色(一)

里面提到过

R自带了5个跟颜色相关的函数,即:

  • rainbow

  • heat.colors

  • terrain.colors

  • topo.colors

  • cm.colors

接下来我们就使用其他几种配色方案来绘制热图

heatmap(data, cexCol = 1,scale="row",col = cm.colors(256))

heatmap(data, cexCol = 1,scale="row",col = terrain.colors(256))

heatmap(data, cexCol = 1,scale="row",col = topo.colors(256))

heatmap(data, cexCol = 1,scale="row",col = heat.colors(256))

本文中使用的表达矩阵来自GEO公共数据库

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE82236

关于GEO数据库检索和差异表达分析可以参考

基于GEO公共数据库的数据挖掘

课程网址:

https://ke.qq.com/course/package/37513

课程二维码:

长按二维码跳转

关注下方公众号,后台回复“GSE82236”获取原始数据

参考资料:

1.超详细的热图绘制教程(5000余字),真正的保姆级教程

2.R语言绘制基因表达热图(简易版)

3.一个R函数搞定风险评估散点图,热图

4.R绘制甲基化和表达谱联合分析热图

5.R语言中的颜色(一)

为了方便大家交流学习,共同进步,我特地创建了微信交流群

后台留言“生信交流群”入群

往期内容(点击图片获取相关信息)

Measure
Measure

点击数:0

2024年3月2日
发表者 kimi1006
暂无评论

保姆级 IGV 基因组浏览器使用指南(图文详解)_igv使用-CSDN博客

保姆级 IGV 基因组浏览器使用指南(图文详解)

白墨石

于 2021-08-06 08:22:13 发布

阅读量2w

点赞数
30

97 篇文章
326 订阅

57 篇文章
114 订阅

一、软件下载

http://software.broadinstitute.org/software/igv/download

这里以下载 Windows 版本为例,下载带有 Java 的版本,方便安装。

由于大部分数据是通过服务器跑出的结果,所以也有小伙伴有在 Linux 服务器端使用的需求。这里推荐几种方式:

  • 配合远程控制软件来使用,国产推荐 Todesk,向日葵
  • 话说目前有部分单位禁止远程软件,推荐结合 Jupyter 来使用
  • 建立 FTP 来通过 url 访问

建议最好安装在固态硬盘所在分区,提高加载速度。

如果没有在桌面找到 IGV 软件,按住 Win 键,搜索 igv 可以找到并运行

IGV 有下载文件的需求,所以通过网络访问权限

二、软件介绍

1、数据载入

为了方便介绍功能,我们需要先下载几个测试数据:

测试数据下载:

下面的数据来自人肝脏的 DNaseq 数据,分别为bigbed 文件与 bigwig 文件:

bigbed 文件:https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE172690&format=file&file=GSE172690%5FENCFF812QNX%5Fpeaks%5Fmm10%2EbigBed

bigwig 文件:https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE172690&format=file&file=GSE172690%5FENCFF705ESF%5Fread%2Ddepth%5Fnormalized%5Fsignal%5Fmm10%2EbigWig

想了解更多基因组相关文件格式:https://blog.csdn.net/u011262253/article/details/109367884

载入数据:

成功载入数据

切换其中一个染色体:

2、软件面板

这里分五大部分来介绍:

  • 工具栏

  • 轨迹信息栏

  • 基因组窗口

  • 轨迹窗口

  • 基因窗口

1、工具栏

从左到右依次为划分为三个小工具:

参考基因组工具

a. 选择参考基因组物种及版本,如果没有本地版本,需要联网下载

b. 选择染色体编号

c. 搜索染色体区间,格式如图所示,最常用的功能还是输入感兴趣的基因,直接跳转到对应的位置

视图操作工具

依次为主页面,前一步,后一步,刷新,定义区域,Trace适屏,弹出信息显示

缩放工具

用于控制整个视图的缩放比例,快捷键

2、轨迹信息栏

右键可以打开菜单,进一步修改,后面详细来研究。

3、基因组窗口

上部分为整条染色体,点击即可跳转该位置

下半部分为目前染色体可见部分对于的染色体位置,用刻度线标识,单位为碱基数。

4、轨迹窗口

每一行代表一个样本的 Trace

5、基因窗口

显示基因的特征区域,可以与 Trace 面板配合,来查看研究区域的生物学信号。

三、常用操作

1、下载参考基因组及注释

  • 左上角点击 More:

  • 搜索物种名及其参考基因组版本:

    更多参考基因组知识:https://blog.csdn.net/u011262253/article/details/117486244

  • 进入下载进度,这一步比较慢,建议科学上网或晚上挂着下载

2、数据加载

目前支持的格式包括:

  • 序列比对:bam,cram
  • 基因组注释:bed, gtf, gff3, psl, bigbed
  • 信号数据:wig, bedgraph, bigwig, tdf
  • 拷贝数:seg

拖动文件到轨迹窗口

本地文件载入

右上角点击 File -> Load from File,选择本地文件即可

通过 URL 加载

如谷歌的数据gs://genomics-public-data/platinum-genomes/bam/NA12877_S1.bam,自己有服务器最好建立 ftp 站点,方便查看

通过官方服务器加载

这里有一些公共项目的数据集,有兴趣的小伙伴可以多浏览

3、搜索

在工具栏的搜索框输入,图中 C 的位置:

有几种搜索方式:

  • 按基因组坐标搜索:chr6:64,664,854-64,666,044
  • 按基因名搜索:如 pou5f1,但是不支持别名等其他名称搜索
  • 按突变搜索,支持两种格式:
    • KRAS:G12C,搜索 KRAS 第 12 个氨基酸上,从G 到 C 的突变。* 表示终止密码子
    • 123A>T,搜索 KRAS 第 123 个氨基酸,从 A 到 T 的突变

4、放大缩小

  • 放大:
    • 双击轨迹窗口
    • 按住 Shift 健,单击轨迹窗口
    • 点击缩放工具 +
    • 在基因组标尺窗口按住左键滑动,选中区域便会放大
  • 缩小:按住 Alt 健,单击轨迹窗口

5、滚动平移

  • 水平移动
    • 按住左键在轨迹窗口左右拖动
    • 点击基因组标尺或染色体图
    • HomeEnd
  • 垂直滚动
    • 按住左键在轨迹窗口上下拖动
    • Page UpPage Down

6、右键菜单

在轨迹信息栏和基因窗口都可以右键呼出如下菜单栏,我们在出图时会依次用到

四、绘图

1、折线图

右键选择折线图选项

修改颜色

设置颜色

设置数据值域

这里试试设置不同的数据范围,也就是值域,这里注意 Y 轴变化

最终效果如下:

2、散点图

切换到散点图选项

设置同折线图,效果如下

3、条形图

切换到条形图

设置同折线图,最终效果

4、热图

选择热图选项

配置参数

设置

效果

总结一下,一共可以绘制四种图,包括:

热图

折线图

条形图

散点图

5、基因

右键可以打开设置菜单,一共有三种形式选择:

堆叠形式

多个转录本堆叠在一起显示

展开形式

分别显示多条转录本

压缩形式

样本参数设置

基因特征显示

6、保存图片

支持格式两种 png,svg。这两种格式导出后,用 PS 和 AI 修改后就是论文中常见的图啦。

Measure
Measure

点击数:0

2024年3月2日
发表者 kimi1006
暂无评论

易基因|ChIP-seq分析方法:实用的工作流程和高级应用 – 深圳市易基因科技 – 博客园

易基因|ChIP-seq分析方法:实用的工作流程和高级应用

大家好,这是专注表观组学十余年,领跑多组学科研服务的易基因。

2020年03月,《Methods》杂志上发表一篇关于表观组学ChIP-seq分析方法的综述文章,详细介绍了染色质免疫共沉淀(ChIP-seq)的工作流程和高级应用。以下为原文总结分享:

一、介绍(Introduction)

染色质免疫共沉淀测序(ChIP-seq)是表观基因组学研究中的一种主要方法。全基因组的组蛋白修饰分析(如增强子分析和全基因组染色质状态注释)可以系统分析表观基因组如何促进细胞身份(cell identity)、细胞发育、细胞谱系规范(lineage specification)和疾病。本综述中,作者专注于生物学研究的实践方法,首先介绍了ChIP-seq从质量评估到染色质状态注释的标准分析工作流程。接下来作者概述了几种用于组蛋白修饰的ChIP-seq高级应用,包括预测基因表达水平、染色质成环 (enhancer-promoter looping)、数据归集(data imputation)。最后,作者讨论了单细胞ChIP-seq(scChIP-seq)分析方法,阐明了复杂组织和癌症中的细胞多样性。

Roadmap Epigenomics Consortium提出的五个”主要组蛋白标记”广泛用于 ChIP-seq 分析:

  • H3K4me1和H3K27ac:与增强子区域相关;
  • H3K4me3:与启动子区域相关;
  • H3K36me3:与基因体中的转录区域相关;
  • H3K27me3:与 Polycomb 抑制相关;
  • H3K9me3:与异染色质相关。

二、ChIP-seq实验和分析工作流程

图1:ChIP-seq实验和分析工作流程。(A)样品制备和测序;(B)ChIP-seq标准分析流程。

(1)环境设置(Environmental setup)

NGS分析的计算工具通过各种计算机语言编写,例如C++,R,Python,Java和Perl语言。每种语言都需要不同的设置方法。大多数在Linux系统上执行,也可以使用Linux的Mac终端和Windows Subsystem for Linux (WSL)。Python2在2020年以后不再维护,有几种工具需要Python2但尚未更新到Python3,因此用户不得不考虑更换软件包以获得新的替代方案。如果想继续使用旧的应用程序,可以选择Docker、Singularity提供安全、奇异(https://sylabs.io/)的分析环境。

(2)从公共数据库中下载ChIP-seq数据

多个公共数据库可以下载组蛋白修饰ChIP-seq数据,如人内皮细胞表观基因组数据库,包含人体9种血管类型中获得的424个组蛋白修饰ChIP-seq和67个RNA-seq数据集,有包括reads、比对文件、bigwig文件和peaks表等多种数据类型可用,这些数据适合用作ChIP-seq分析的教学和测试数据(表1)。

表1: ChIP-seq公共数据库

(3)组蛋白修饰ChIP-seq分析的技术考虑

ChIP-seq分析的可靠性取决于抗体质量,包括特异性和信噪比(S/N)。非特异性抗体-DNA结合的假阳性富集位点可能会干扰分析,因此应使用多种抗体验证ChIP-seq结果。

虽然大多数ChIP-seq工具都是针对特定基因组区域的sharp peaks,如转录起始位点(TSS),但一些组蛋白修饰与大基因组结构域相关,从而导致富集区域广泛分布。H3K27me3和H3K36me3富集分布在几百个碱基上,而H3K9me3 peaks通常扩展到几兆碱基。增强子标记H3K27ac和H3K4me1产生sharp peaks,但有时也会构建broad富集区域,称为“超级增强子”。H3K4me3启动子标记还可以覆盖小鼠卵母细胞中的broad结构域。这种peak形状和宽度变化影响最佳计算工具的选择。比如,ROSE用于检测超级增强子位点,Music用于计算要研究样本平均的peaks宽度。

(4)reads比对

使用Bowtie、Bowtie2或BWA等工具对测序reads(FASTQ或CSFSATQ格式)进行比对。Bowtie2和BWA可以通过gapped alignments比对考虑INDEL(insertions和deletions),这适用于长reads和双端reads。比对文件有多种格式,如SAM、BAM、CRAM和tagAlign,BAM格式是迄今为止使用最多格式,不过更节省空间的CRAM格式正在成熟,很可能成为下一个标准。比对后,比对到相同基因组位置的reads被过滤为冗余reads,去冗余后剩余的reads用于后续分析。

(5)Peak calling

peak-calling可以鉴定基因组中显著富集位点(peaks)。peak-calling结果通常以BED格式呈现。尽管ChIP-seq peaks没有strand信息,但可以从基因信息中预测(如关注TSS周围富集的组蛋白标记)。MACS2是最常用的peak-calling工具,不过没有任何工具可以达到100%准确度。因此,一种实用的策略是采用较为宽松的阈值获得大量包含真实阳性信号和干扰信号的peaks,然后使用另一种方法进一步提取以提高特异性(如使用不重复的发现率(IDR))在生物学重复中选择一致的信号。

(6)ChIP-seq 数据质量评估

ChIP-seq样品的质控(QC)对于判断测序数据是否高质量且能否进一步分析至关重要。其中特别重要的指标:

    • 比对率。反映reads质量和基因组DNA的测序reads比例。
    • reads深度(去冗余后比对的reads数量)。足够的reads深度取决于基因组大小和抗体信噪比。ENCODE consortium建议至少10M唯一比对的reads作为分析人样本的sharp-mode peaks最小值。broad组蛋白标记通常具有较弱的信噪比,且需要更多的reads(人样本>40M)作为peak-calling的最小值。
    • 文库复杂性(非冗余reads比例)。范围从0到1,ENCODE认为10M比对reads的复杂性应 > 0.8。
    • 归一化strand系数(NSC,通过SSP计算)。sharp和broad peaks的信噪比(S/N)指标,使用10M ChIP-seq公共数据库对多个物种进行深入验证,建议阈值为NSC > 5.0(sharp peaks)和NSC > 1.5(broad peaks),input样本应具有低S/N,因此NSC值应<2.0。
    • 背景均匀度(Bu)。Bu反映背景区域的reads分布偏差,范围从0到1。Bu值低(<0.8)表明reads分布比预期更集中或具有偏好性,通常会导致获得的peaks中出现许多假阳性。对于具有广泛拷贝数变异的基因组(例如MCF-7细胞),则需要宽松的Bu阈值(>0.6)。
    • GC 峰偏差。反映免疫沉淀和PCR扩增过程中的偏好,通常ChIP-seq数据的GC峰值与参考基因组相似。(例如,人类约为50%)。GC偏差(例如,人类超过60%)经常由于PCR扩增偏好和/或来自与CpG岛相关的“超富集”区域的假阳性峰而表现出来。

图2:使用 ROADMAP组蛋白修饰数据的QC 分析。(A)六个组蛋白修饰和input样本的四个QC评分分布;(B)Roadmap表观基因组数据库的 117 种细胞类型的 H3K36me3 reads分布的 Pearson 热图。

(7)可视化

在为ChIP-seq数据开发了各种统计方法和质量指标后,reads分布的可视化检查可以有效直观地评估和分析所获得的数据。可以使用交互式可视化工具,如IGV或 SeqMonk。几个web服务器(如UCSC genome browser和WashU Epigenome browser)可以将获得的ChIP-seq结果与其他注释数据关联分析,如进化保守性和各种组织中的基因表达。

(8)归一化比较分析

在比较分析之前,reads归一化对减少技术偏差至关重要。通常使用简单的总reads归一化,将样本reads缩至一致,假设样本之间的比对reads差异充分小于总reads数。但这个假设并不总是得到满足,因此开发了几种方法来鉴定两种条件之间的差异富集区域,其中一些专门为组蛋白修饰数据设计。由于潜在的统计假设不同,不同工具获得的结果差异很大,因此方法的选择将对结果产生关键影响。

两组以上的定量比较更为复杂。当样本之间的预期S/N值相似时,可以使用差异基因表达分析的统计方法。当样品最常见peaks的S/N相似时(如所有样本的单个抗体),也可以利用分位数归一化。如果样本的S/N变化很大(如有和无刺激),则考虑spike-in分析(也称校准分析),该方法在免疫沉淀之前或之后将不同物种的等量DNA添加到所有样本中,并根据衍生reads数估计权重系数。与计算相对差异的归一化方法不同,spike-in ChIP-seq可以研究绝对水平差异。然而即使在归一化后,定量ChIP-seq比较仍然经常受到多步骤样品制备引起的干扰。在这种情况下,可能需要进行简单的两两比较(识别相同或特异性peaks),但所得结果中可能会有一些假阳性和假阴性。

(9)使用DROMPAplus进行ChIP-seq分析

DROMPAplus软件具有许多有价值的功能。首先,它接受各种input map文件格式,包括CRAM。其次,DROMPAplus可以在一行中显示两个样品(图3A),描绘了reads富集的共现关系(如H3K4me3和H3K27ac)和特异性(如H3K27me3和H3K36me3),染色质环从3C鉴定中获得。第三,使用SSP从单端reads中自动计算片段长度。第四,该软件可高度定制轨道高度(track heights)、坐标轴范围(axis limits)和显示功能(display features)。例如该软件可以通过用linear-scale和log-scale突出显示富集区域来描述ChIP/input富集。第五,DROMPAplus可以支持spike-in归一化和总reads归一化。最后,它使用比C语言更灵活的C++语言,计算速度比Python和R快。

图3:使用DROMPAplus可视化多个ChIP-seq样本。

(A) E055(包皮成纤维细胞),E058(包皮角质形成细胞),E065(主动脉),E096(肺),E112(胸腺)和E122(人脐静脉内皮细胞:HUVEC)的sharp(上)和broad(下)两个组蛋白标记的归一化reads数分布。HUVEC中RNA Pol II介导的染色质环(基于ChIA-PET数据)由arches表示。

(B)人7号染色体的五个主要组蛋白修饰(E122)的可视化。

(10)功能分析

Motif分析研究了peaks或特定表观基因组区域(如增强子位点)中的特异性序列,并预测鉴定区域内可能的转录因子结合位点。一般来说,motif分析方法可以分为两种类型:

  1. de novo motif discovery,用于鉴定出现在大部分peaks中未知因子的潜在新结合motif;

② motif scanning,用于预测和排列提供的DNA序列与数据库中所有已知motif的相似性。

ChIP-seq peaks也可用于功能富集分析。该分析将附近基因作为潜在靶点进行双向标记或定量排序,并通过GO或KEGG分析对其进行分组。

(11)染色质状态注释

染色质状态注释,也称为半自动基因组注释(semi-automated genomic annotation,SAGA),使用非监督学习方法,通过特异性表观基因组模式(如启动子,增强子,转录区域和抑制区域)对所有基因组区域进行分类。获得的簇(clusters)被注释为染色质状态,特异性区域分析(如增强子分析)缩小了待研究的目标基因组区域。而染色质状态注释使用隐马尔可夫模型(Hidden Markov Model,HMM)或动态贝叶斯网络(Dynamic Bayesian Network, DBN)分割基因组并将染色质状态分配给全基因组区域。在此分析中,生物学上最佳的状态数量必须通过实验定义。

获得的染色质状态进一步扩展用于各种下游分析。如ChromDiff、EpiCompare和ChromDet将多种细胞类型的表观基因组景观组合并聚类,以研究组织或细胞类型特异性表观基因组区域。还可利用概率聚类方法来捕获多个细胞系和多个时间点的染色质动态变化。基于图的正则化(Graph-based regularization ,GBR)整合染色质互作信息,用于染色质状态注释。生成的染色质状态信息用于揭示个体遗传变异和了解进化中的表观遗传变异。

三、ChIP-seq高级应用(Advanced applications)

研究中常用的的细胞类型具有十分丰富的ChIP-seq数据,利用这些细胞类型的信息可以推断基因组动力学或通过较少的相关实验可以注释其他细胞类型的表观遗传景观。越来越多证据表明,表观遗传信息与基因表达和染色体构象高度相关,且可预测。以下简要介绍用于组蛋白修饰的ChIP-seq分析的高级应用工具。

(1)通过表观基因组信息预测基因表达

目前已经开发了对ChIP-seq实验获得的表观遗传信息定量预测基因表达水平的各种基于机器学习方法。如Karlic等人将线性回归模型(linear regression model)应用于启动子位点的组蛋白修饰富集,以预测CD4+ T细胞基因表达;他们利用19种组蛋白修饰,并提出只要3个启动子位点修饰就足以模拟基因表达。Dong等人使用非线性模型(non-linear models),如多元自适应样条回归(multivariate adaptive regression splines ,MARS)和随机森林(random forests),在7种人细胞系中绘制了11种组蛋白修饰和DNase I超敏反应,并成功预测了基因表达水平(Pearson系数r = 0.83)。以上模型仅考虑启动子位点的表观遗传模式,而不考虑增强子位点信息。

DeepExpression利用HiChIP数据,一种用于捕获以蛋白质为中心的染色体环高通量技术,用于探索增强子和增强子-启动子互作。此外,还可以使用卷积神经网络(convolutional neural networks ,CNN)来预测基因表达或差异基因调控模式。将多个组蛋白修饰ChIP-seq数据和HiChIP数据相比,由于制备单个RNA-seq样品需要相对较低的成本,研究主要目的是阐明组蛋白修饰在基因调控中的组合作用,而不是预测基因表达水平本身。

(2)从表观基因组数据预测染色质互作

已有证据表明增强子中的单核苷酸多态性(SNPs)可以引起遗传性疾病和癌症,因此非常需要全基因组分析来表征增强子在特定细胞系中的作用。然而,增强子和靶基因的全基因组配对并非易事。增强子不一定调节最近的基因,甚至一些增强子远离TSS。尽管染色体构象捕获(3C)检测(如Hi-C,HiChIP和ChIA-PET),可对整个基因组的空间接近度进行定量分析,但用于配对增强子和靶标的计算工具在不断发展。Hariprakash和Ferrari将基因增强子配对工具分为四类:基于相关性,基于监督学习,基于回归和基于评分。主要区别在于“是否每个基因考虑多个增强子”和“是否每个增强子/启动子位点考虑多个表观遗传数据”。基于相关性方法分析所有增强子-启动子互作关系,而基于回归方法假设多个增强子可作用于单个基因。基于监督学习和基于评分的方法可以为每个位点组合多个ChIP-seq数据集和其他信息类型(如进化保护)。以上工具专注于增强子-启动子互作,同时,还有许多其他染色质互作,如增强子-增强子环和相分离的弱染色质耦合。CITD和DRAGON分别使用小波变换(wavelet transformation)和势能函数(potential energy functions)从表观遗传数据中全面解析三维基因组组织。

以上统计方法旨在找到与空间染色质接触相关表观遗传数据中的一致模式,并在没有任何基因组架构知识的情况下进行预测。其局限性在于基因组互作是定性而并非定量,尽管具有动态属性。在training和验证数据集中共享基因组结构信息,目前的统计方法可能存在training偏差。由于工具的数量正在快速增长,未来的方法可能会达到足够的准确性,从而不需要通过3C数据来鉴定增强子-启动子互作。

(3)数据归集(data imputation): ChIP-seq数据重建和去噪

大规模ChIP-seq分析中的一个分析挑战来自ChIP-seq数据中的偏差和批次效应。机器学习方法对training数据噪敏,不可避免地将一些ChIP-seq样本判定为中等质量或低质量数据(导致数据丢失),尤其在多个实验室负责的数据采集情况下(如大型联合项目)。如果样品非常珍贵(如原代细胞和临床样品),实际上可能难以收集更多样本。这种情况下,“data imputation”方法可能可以利用其他密切相关细胞类型的表观遗传数据进行数据去噪或重建。

“数据去噪(Data de-noising)”旨在通过鉴定和去除数据中的噪声来改善现有的ChIP-seq数据质量。例如Coda对生成噪声过程进行编码,并使用卷积神经网络(CNN)恢复ChIP-seq数据中的信号。“数据重建(Data reconstruction)”旨在从silico的大型数据集中生成缺失的ChIP-seq数据。ChromImpute是一种开创性的工具,可以使用十种最相关细胞类型训练回归树(regression tree),从每个缺失的实验推断信号。PREDICTD和Avocado利用张量分解(tensor decomposition)同时分析多个ChIP-seq数据。

data imputation是ChIP-seq实验的潜在替代方法,并且可能为收集生物学中所有可能细胞类型和环境条件的表观基因组数据开辟道路。在现阶段,预测与其他样本不相关的样本特异性信号与遗传变异的结合存在局限性。即使在高质量数据可用的情况下,通过基因组数据归集的“信号先验期望(a prior expectation of signal)”也能提供信息,所以检测数据和测算数据的结合使用是一种较好策略。

四、单细胞 ChIP-seq 分析

已有证据表明,许多细胞类型(包括正常免疫细胞)在复杂的组织和肿瘤中起着重要的辅助作用。为阐明发育过程中的细胞异质性和细胞命运轨迹(cell fate trajectories),研究人员开发了各种单细胞分析方法。其中scChIP-seq能够在低输入(low-input)样品情况下以单细胞分辨率对组蛋白修饰和其他染色质结合蛋白进行全基因组分析。下表为利用微流控系统(microfluidic systems)、Tn5转座酶标记(Tn5 transposase tagmentation)和ChIP-free策略的多种用于单细胞标记(tagmentation)和ChIP-seq文库制备方法(表2)。

表2:scChIP-seq方法

(1)基于微流控系统的方法

第一种scChIP-seq方法scDrop ChIP使用微流体系统进行细胞标记,并结合常规ChIP方法生成在每个细胞中产生约800个不重复(non-duplicated)reads。液滴微流控(droplet microfluidic)技术提供了更高的分辨率,每个细胞产生约10000个不重复reads。这些方法的局限性在于大多数实验室通常不使用专用的微流控装置。

(2)基于标记的方法

使用Tn5转座酶标记的文库制备已广泛用于包括ChIP-seq在内的各种NGS分析。sc itChIP-seq在常规ChIP实验之前采用标签化技术进行单细胞标记和文库制备,可以在每个细胞中产生约9000个不重复reads。由于该方法的实验过程与常规ChIP-seq方法相似,因此比scDrop-ChIP更易于使用。

(3)ChIP-free方法

scChIP-seq开发了几种ChIP-free方法:单细胞染色质免疫裂解测序(scChIC-seq)和单细胞uliCUT&RUN,它们基于CUT&RUN方法,采用MNase和蛋白A融合蛋白(protein A fusion proteins)检测具有特异性抗体的裂解靶点。通过严格实验步骤进行文库制备,每个细胞可产生约4100个不重复reads,缺点是reads比对率比较低(∼6%)。另外还有三种类似的方法:CUT&Tag、ACT-seq和CoBATCH,这几种方法使用Tn5转座酶和蛋白a融合蛋白检测。在文库制备过程中,目标蛋白结合在染色体上后,融合蛋白捕获一级抗体(primary antibody);然后激活Tn5转座酶并在蛋白质结合位点进行标记。这几种方法的优点是可以同时进行蛋白质结合位点检测和文库制备,大大减少了实验步骤和时间,且较少受到免疫沉淀步骤偏差的影响,每个细胞可显示约 97%的比对率并产生约12000个不重复reads。因此,这种ChIP-free方法具有高通量和高质量scChIP-seq分析的潜力。

最后,染色质整合标记测序(Chromatin Integration Labeling sequencing ,ChIL-seq)是一种基于免疫染色的ChIP-free方法。该方法使用与dsDNA偶联的二抗探针(secondary antibody probe),该探针包含T7 RNA聚合酶启动子、NGS接头序列和Tn5结合序列,在捕获第一抗体后,通过Tn5转座酶将探针DNA序列整合到目标结合位点。然后通过转录扩增整合区域,进行RNA纯化和文库制备。该方法可用于单细胞分析,但可能需要进行多次优化才能实现高通量测序。

在未来,将会开发更多scChIP-seq方法,如同时检测多个组蛋白修饰和其他染色质结合蛋白。这些研究将能够捕获每个细胞染色体上的基因调节因子的互作关系。

五、总结

这篇综述主要讨论了组蛋白修饰ChIP-seq分析的概念和方法。作者阐明了从质量评估到染色质状态注释标准分析的逐步工作流程,重点阐述与每个步骤相关的关键点。然后讨论了几种使用机器学习方法的高级ChIP-seq应用。由于表观基因组数据的可用性越来越高,使用这些数据鉴定新基因组特征的工具将继续受到关注。

“高级应用”介绍的几乎所有方法都使用有监督机器学习方法(如deep-CNN),其中一个局限性在于这些方法需要每个细胞系的许多样品来开发training数据,从而导致需要大量的ChIP-seq数据。此外,这些方法需要在分析环境中具有强大的计算能力和足够的磁盘存储,云计算可能是克服此限制的一种解决方案。研究人员可以通过云计算共享PB数据集和计算环境,大大降低了大规模重新分析公共数据的计算成本。另一个局限是input数据的准确性,初始样品的training数据通常是从各种NGS分析中获得,其中包含了技术/生物噪声,对有效training有很大的干扰。尽管data imputation方法在一定程度上突破了这种限制,但仍有必要为training数据开发经过实验验证的“黄金标准数据集(gold standard datasets)”以评估工具性能。

此外ChIP-seq分析的另一个挑战是与其他NGS测序的联合分析(如DNA甲基化、开放区域(accessible regions)和3D基因组折叠(3D genome folding))。其中Hi-C等三维基因组信息可以预测与表观遗传特征密切相关的增强子-启动子互作和拓扑结构域(Topologically associating domains,TAD)。最后作者讨论了近期开发的scChIP-seq分析方法,多个scChIP-seq方案促进了相关算法的发展。

关于染色质免疫共沉淀测序 (ChIP-seq)

染色质免疫共沉淀(Chromatin Immunoprecipitation,ChIP),是研究体内蛋白质与DNA相互作用的经典方法。将ChIP与高通量测序技术相结合的ChIP-Seq技术,可在全基因组范围对特定蛋白的DNA结合位点进行高效而准确的筛选与鉴定,为研究的深入开展打下基础。

DNA与蛋白质的相互作用与基因的转录、染色质的空间构型和构象密切相关。运用组蛋白特定修饰的特异性抗体或DNA结合蛋白或转录因子特异性抗体富集与其结合的DNA片段,并进行纯化和文库构建,然后进行高通量测序,通过将获得的数据与参考基因组精确比对,研究人员可获得全基因组范围内某种修饰类型的特定组蛋白或转录因子与基因组DNA序列之间的关系,也可对多个样品进行差异比较。

应用方向:

ChIP 用来在空间上和时间上不同蛋白沿基因或基因组定位

  • 转录因子和辅因子结合作用
  • 复制因子和 DNA 修复蛋白
  • 组蛋白修饰和变异组蛋白

技术优势:

  • 物种范围广:细胞、动物组织、植物组织、细菌微生物多物种富集经验;
  • 微量建库:只需5ng以上免疫沉淀后的DNA,即可展开测序分析;
  • 方案灵活:根据不同的项目需求,选择不同的组蛋白修饰特异性抗体。

技术路线:

参考文献:

Ryuichiro Nakato, Toyonori Sakata,Methods for ChIP-seq analysis: A practical workflow and advanced applications,Methods,Volume 187,2021,Pages 44-53,ISSN 1046-2023,https://doi.org/10.1016/j.ymeth.2020.03.005.

相关阅读:

手把手教你做染色质免疫共沉淀测序(ChIP-seq)分析实验

ENCODE组蛋白ChIP-seq和转录因子ChIP-seq数据标准及处理流程

项目文章 | ChIP-seq揭示HIV-1感染细胞转录抑制因子Schlafen 5的表观遗传调控机制

一文看懂:ChIP实验和qPCR定量分析怎么做

Measure
Measure

点击数:0

2024年3月2日
发表者 kimi1006
暂无评论

Chip-seq分析流程 – 卖萌控的博客

Chip-seq分析流程

萌小白 组学教程
围观1410次 暂无 编辑日期:2022-11-19 字体:

流程的一些关键点分析:

  • 我们的Peak是如何找出来的?Callpeak的流程(MACS2)

1. 质控 (quality control)

首先要看一下ChIP-seq数据的质量,数据的信号最好比background要强很很多。一般要有control,这样call peaks更准确可信, control主要有Input DNA 和 IgG两种,前一种更常用。

检测质量的一些方式:

  • 1). peaks中reads的数量,如果peaks的reads普遍较少,则质量一般。

  • 2). peaks信号高,背景低。

  • 3). 测序深度深 。

  • 4). Diverse library (与重复duplications有关,如下图)

  • 5). 有重复并且与重复之间相似性较高…
    ……

2. 序列比对 (mapping of fastq)

序列比对一般用BWA或者Bowtie2,两者效果差不多。我们一般采用Bowtie2,对reads进行基因组进行回帖。

3. 去除重复 (remove duplicates)

由于PCR实验存在不可避免的实验误差,所以会存在重复 (duplicates)。我们一般在Chip-seq中会进行去除。

理论上来讲,不同的序列在进行PCR扩增时,扩增的倍数应该是相同的。但是由于聚合酶的偏好性,PCR扩增次数过多的情况下,会导致一些序列持续扩增,而另一些序列扩增到一定程度后便不再进行,也就是我们常说的PCR偏好性。

这种情况对于定量分析(如ChIP-seq),会造成严重的影响。此外,PCR扩增循环数过多,会出现一些扩增偏差,进而影响后续分析结果的置信度。

4. peak calling

peaks是reads信号比较强的区域,也就是我们找到的转录因子或者组蛋白修饰最有可能结合的地方。call peaks仍然有不少软件,比较常用的是MACS2和Hotspot2。

5. 下游分析 (downstream analysis)

分析完之后下游可以做的事情很多,视情况而定。
可分析Peak的临近注释基因,分布类型情况,及功能注释情况;
或者Homer等工具注释peaks,看不同转录因子/组蛋白修饰之间的关系,或者分析TF的target gene。
或者同时分析RNA-seq、ATAC-seq等数据,看转录因子与染色质开放区的关系;

作者:萌小白
一个热爱网络的青年!
Measure
Measure

点击数:0

2024年3月2日
发表者 kimi1006
暂无评论

人生第一次尝试Chip-seq analysis-腾讯云开发者社区-腾讯云

人生第一次尝试Chip-seq analysis

原创

发布于 2023-05-17 22:59:27
6641
举报

20230517 书

由于课题需要开始学习Chip-seq的分析方法,Chip-seq的原理已经有很多介绍啦,我就不再写了。

下载数据 — prefech 下载SRA文件

# Linux 中使用Prefetch 进行下载
for i in $(cat SRR.txt);do prefetch $i;done

使用Fastq-dump 进行SRA 文件分割

# fastq-dump 进行文件分割 SRA -> fastq.gz
for i in $(cat SRR.txt);do fastq-dump --gzip --split-3 $i/$i.sra;done

使用bowtie2 进行比对,比对前需要构建index

nohup bowtie2-build hg19.fa hg19 & > nohup01.out
bowtie2 -p 6 -3 5 --local -x /reference/bowtie2_index/hg19 -U sample1.fastq.gz | samtools sort -O bam -o ../aligned/sample1.bam &

使用MACS3 进行样本间比较(后续可视化使用)

###重复一起输入找共有peaks
macs3 callpeak -t sample1.bam sample2.bam -c input1.bam input2.bam -f BAMPE -n sample --outdir ./ -g 2.7e9  -B

###重复分别进行比对
macs3 callpeak -t sample1.bam  -c input1.bam -f BAMPE -n sample1 --outdir ./ -g 2.7e9  -B
macs3 callpeak -t  sample2.bam -c input2.bam -f BAMPE -n sample2 --outdir ./ -g 2.7e9  -B

# -t treatment FILENAME,若多个重复,可以-t  A B C
# -c control FILENAME,若多个重复,可以-c  A B C
# -f 指定输入文件,我这是BAMPE格式,注意必须是sort后的bam.
#    可以是”ELAND”, “BED”, “ELANDMULTI”, “ELANDEXPORT”, “ELANDMULTIPET” (for pair-end tags), 
#    “SAM”, “BAM”, “BOWTIE”, “BAMPE” “BEDPE” 任意一个。如果不提供这项,就是自动检测选择。
# -n 生成的文件前缀名
# --outdir 结果文件存放位置,我这里是当前目录
# -g 参考基因组大小hs: 2.7e9; mm: 1.87e9; ce: 9e7; dm: 1.2e8, 不在其中的话,比如说拟南芥,就需要自己提供了。
# -B 会保存更多的信息在bedGraph文件中,如fragment pileup, control lambda, -log10pvalue and -log10qvalue scores
# -q: q值,也就是最小的PDR阈值, 默认是0.05。q值是根据p值利用BH计算,也就是多重试验矫正后的结果。
# -p: 这个是p值,指定p值后MACS2就不会用q值了。
# -m: 和MFOLD有关,而MFOLD和MACS预构建模型有关,默认是5:50,MACS会先寻找100多个peak区构建模型,一般不用改,因为你很大概率上不会懂。

得到以下结果

MACS3 结果文件

Rscript model.r 得到Pdf 文件

后续可视化进行中……

Deeptools

# 需要首先构建BAM index
sam-tools index sample.bam
# 比较BAM文件
bamCompare -b1 SRR21743214_sort.bam -b2 SRR21743217_sort.bam -o sample_1.bw
# 单个BAM文件
bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM
# 后续进行可视化

参考信息

https://www.jianshu.com/p/96688fecd864 全面的chip-seq流程
https://www.jianshu.com/p/2b8e2ea26665 主要的参考流程

https://www.jianshu.com/p/26aaba19a605 Chipseeker

https://www.jianshu.com/p/e2b871e93e54 Deeptools1

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

Measure
Measure

点击数:0

2024年3月2日
发表者 kimi1006
暂无评论

科普在线 | 牙齿不够白就去做“喷砂洁牙”?您真的适合去做吗?一篇文章读懂喷砂治疗-成都中医药大学附属医院(四川省中医院)

科普在线 | 牙齿不够白就去做“喷砂洁牙”?您真的适合去做吗?一篇文章读懂喷砂治疗

发布时间:2023-10-18    来源:
    浏览:533次

小牙,根据你目前的健康情况,今天我们要给你做一次全身SPA——喷砂治疗,还原你的美貌!

呀~喷砂是什么哦?感觉好恐怖的样子!喷砂是怎么治疗的?

不用害怕,今天我就跟你细细道来~

1、喷砂洁牙是什么?

喷砂洁牙作为一项经典的牙周治疗手段,在全世界范围已拥有数十年的历史,具有舒适、高效等治疗特点,可与超声洁治完美融合。喷砂是借助压缩空气驱动砂粉晶体颗粒,而使得高速粒子流产生,经细小砂粉在牙齿的表面产生作用,将牙齿表面沉积的色素、牙菌斑及其他软沉积物如牙齿之间的食物残渣清除干净,且可确保牙面光滑与平整。

2、喷的是什么砂?有什么作用呢?

喷砂粉末主要分为碳酸氢钠、甘氨酸、赤藓糖醇等几大类别。

1.碳酸氢钠喷砂粉是咸味的,颗粒较大,主要适用于有较多茶渍、烟渍的牙面。2.甘氨酸喷砂粉表面光滑、颗粒细腻且具有高度水溶性,现主要用于清除龈下菌斑。3.赤藓糖醇作为一种新型甜味剂,具有高度水溶性,能够极大提高患者使用的舒适度。同时,赤藓糖醇不被口腔微生物利用和吸收,不会产生有机酸,无致龋风险。

3、哪些患者的牙齿需要喷砂呢?

1.日常有喝茶、喝咖啡、吸烟习惯的患者。因为他们的牙面上除了牙石,常还有大面积色素沉积。2.正畸患者口内有固定正畸托槽,极易造成菌斑堆积,喷砂治疗可去除托槽周围沉积的牙菌斑、色素、软垢等。3.口内有种植体的患者,清除菌斑是预防及治疗种植体周疾病的关键措施。4.牙周维护治疗(SPT)的患者,治疗中的一个重要环节就是喷砂治疗去除牙菌斑。

4、喷砂有什么优缺点呢?

喷砂过程非常轻柔,能瞬间把附着在牙齿表面的烟斑、茶渍、咖啡渍等色素沉着及食物软垢清理干净,彻底清除窝沟点隙、种植体、牙间隙、拥挤区域、龈沟、固定矫正器附近的菌斑生物膜,且不会损坏天然牙齿结构;而且,喷过砂的牙齿非常光洁,不易再次附着牙菌斑和色素哦;此外,喷砂还可以提高牙齿的光泽度,还原牙齿最原始的自然色泽~但是喷砂确实有缺点,它无法去除大块牙结石,所以常作为超声洁牙的补充手段。另外,牙龈受到喷砂冲击容易出血,不过这是可恢复的。

5、喷砂后有什么注意事项呢?

1、三天内请不要进食过于辛辣或是过于酸冷的食物,部分体质敏感者可能会出现牙齿对冷、热、酸、甜等刺激过敏不适的现象,属正常的个体反应,请勿过于忧虑。若酸痛症状持续存在,可以考虑使用脱敏牙膏,一般使用一个月左右会有明显改善。

2、请不要用力吮吸,或用舌头舔舐,手指触摸牙龈,一周内不要用牙线、牙签,让牙龈创面有一个恢复期,以防止出现出血不止的现象,如喷砂洗牙一段时间后,突然出现出血不止或者牙龈肿痛的现象,请及时复诊哦。

3、一至两周内尽量避免进食含色素重的食物,如抽烟、喝茶、喝咖啡、喝中药等;一周内三餐后可用含氯己定的漱口水含漱1分钟哦。

6、温馨提示

有以下身体状况的人不适合喷砂治疗:1.装有心脏起搏器的患者。2.肝炎、肺结核等传染性疾病处于活动期者。3.患有某些出血性疾病(白血病、血友病等)、肝硬化晚期的病人。4.口腔局部软硬组织炎症处于急性期的患者。5.怀孕、月经期、妊娠期女性。

口腔科简介

成都中医药大学附属医院(四川省中医医院)口腔科历经多年发展和技术积累,已发展成为集医疗、教学和科研为一体,人才梯队完整的现代化科室。口腔科具备专业化服务、人性化管理能力,将秉持“专业治疗、精密操作、服务患者”的宗旨,竭诚为患者提供优质服务。

Measure
Measure

点击数:0

2024年2月27日
发表者 kimi1006
暂无评论

RadiAnt 工具栏(3D多平面重建[MPR]) – 正版购买 – RadiAnt DICOM Viewer 中文网站

RadiAnt 工具栏(3D多平面重建[MPR])

RadiAnt DICOM Viewer中提供的3D MPR工具可用于在任意平面(倾斜)中重建图像。这可以帮助创建解剖结构的可视化效果,而仅使用基础图像是无法实现的。

打开3D MPR窗口

1.在2D查看器窗口中打开音量系列,然后单击工具栏上的 MPR 按钮,然后单击 3D MPR 。或者,您可以使用 F2 快捷方式。

2.将系列加载到内存中并进行预处理后,3D MPR表示将显示在新窗口中。在速度较慢的系统上,此过程可能需要几秒钟。

某些系列不能与3D MPR工具一起使用(例如,平面不平行的图像)。

如果图像在体积内分布不均匀,则会对缺失的切片进行插值,并且在显示和测量中可能会出现一些视觉伪像。

请注意,某些较大的系列(例如,> 2000 CT图像)需要超过1GB的可用内存和64位RadiAnt DICOM Viewer版本才能成功加载。

Measure
Measure

点击数:0

2024年2月19日
发表者 kimi1006
暂无评论

【单克隆敲除株】我走过最多的路,是肿瘤研究的“套路”-和元生物

【单克隆敲除株】我走过最多的路,是肿瘤研究的“套路”

时间:2022-05-31
热度:449

2022年5月的春风拂面而过,不知不觉中深埋在口罩里的高材生们,就到了一年的毕业季,此时很多应届毕业的硕博都忙着写文章投文章,搞的焦头烂额,想要在毕业前的一点时间里做出属于自己的学术成果。然而也有一些人,早早就拿到了文章接收函,此时正在跟自己的红颜知己享受校园青春中最纯粹的一段快乐时光。是因为实验不努力么?是因为科研的敏感性差么?其实都不是的,在我看来,最大的原因在于不了解肿瘤方向发文章的“套路”。

为了解决这个问题,微风在这里选择2022年5月发表在《CANCER GENE THERAPY》杂志,题为“CRISPR/Cas9-mediated knockout of PIM3 suppresses tumorigenesis and cancer cell stemness in human hepatoblastoma cells”的文章[1],与大家一起共同品味肿瘤研究中的“套路”。

01 背景介绍

肝母细胞瘤是一种具有多种分化方式的恶性胚胎性肿瘤。它是由胎儿性上皮性肝母细胞,胚胎性细胞以及分化的间叶成分组成,这种疾病多发生于小儿。对于此类肿瘤,手术切除是最为有效的治疗方法,如果肿瘤是单发的、瘤体较小、位置表浅且无肝外转移,手术切除可获治愈。但是超过半数的患者在就诊的时候就失去了手术机会。并且肝母细胞瘤对放疗和化疗均不敏感,因此找寻致病进程中的关键基因,克服现有治疗方式的瓶颈显得至关重要。

CRISPR/Cas9单克隆敲除株,是利用单链导向RNA通过碱基互补配对的原理靶向基因的结合位点,随后Cas9核酸内切酶结合到与单链导向RNA形成双链的基因区域进行切割。切割形成的双链DNA断裂在细胞内被修复,造成基因敲除的主要修复机制是非同源末端连接NHEJ,这种修复将产生短的核酸插入或者删除从而导致基因移码突变。目前构建单克隆细胞株的方式主要有电转Cas9蛋白和gRNA、瞬转Cas9-gRNA质粒、慢病毒侵染、转座子构建 4种方式,目前主流的敲除株服务公司和高校及研究所的各个课题组,主要使用的是前3种方法。

图1.CRISPR/Cas9敲除原理[2]
02  技术思路

(1)使用CRISPR/Cas9敲除技术构建HuH6细胞PIM6敲除单克隆细胞系,体外检测增殖、周期、凋亡、迁移、侵袭等常规功能学。
(2)使用传统的RNA-seq技术,确定PIM3敲除后下游信号通路的变化。
(3)使用过表达质粒,扭转PIM3敲除,进行细胞功能学检测。
(4)验证PIM3敲除后,对于HuH6细胞干性的影响。
(5)体内实验验证PIM3敲除对于HuH6细胞皮下增殖能力的影响。

03  研究内容

作者首先通过瞬转Cas9和gRNA表达载体的方式,构建了HuH6 PIM3KO单克隆细胞株。并通过Western Blot鉴定敲除细胞株的PIM3表达,选择B11、D2、E8 3个敲除单克隆进行后续功能研究。作者分别使用了CTG法检测细胞增殖、台盼蓝法检测细胞存活、transwell法检测细胞的迁移和侵袭能力、流式检测了细胞的周期变化。

图2.PIM3细胞功能检测

作者通过转录组测序的方式,发现PIM3KO后,共有746个基因发生了显著性表达改变,其中378个差异基因上调,368个差异基因下调。通过IPA分析,PIM3KO明显出现了细胞死亡和分化基因的上调。其中CCR5信号通路是下调最为明显的,而此通路已经明确证实可诱导癌细胞归巢到转移部位来促进肿瘤进展。除此之外,发现了一些细胞分化通路的激活,如FXR/RXR和LXR/RXR,这也证明了PIM3具有调节肝母细胞瘤去分化的功能。

图3.转录组测序结果

作者使用过表达载体,在PIM3KO的细胞中做了回复,发现回复PIM3基因表达后,细胞增殖速度明显增加,而迁移和侵袭能力也明显得到了回复,证明PIM3的功能是真实可信的。

图4.回复实验

由于在转录组测序的结果中发现PIM3基因与细胞去分化有关,因此作者想验证一下PIM3基因与肿瘤干性的关系,首先文章鉴定了干性最常规的指标CD133并通过成球实验证实PIM3KO后明显降低HuH6细胞干性。同时也测定了其他干性的biomarker,例如Oct4、Nanog、Sox2、Nestin,证实了PIM3确实影响肿瘤干性。

图5.PIM3基因影响肿瘤干性

至此,作者完成了所有体外实验,但是由于文章完整性的要求,又进行了体内实验的检测。首先构建了皮下移植瘤模型,测量了生长曲线和生存曲线,并用免疫组化检测了KI67的表达,确定了PIM3KO后,会影响肿瘤的在体增殖。

图6.PIM3基因功能在体验证

总结一下,通篇文章只是证明了PIM3在肝母细胞瘤中的作用和机制这件很简单的事情,就发表了影响因子在6分左右的文章。它值得学习的地方在于设计的套路,使用单克隆敲除株探索基因功能,使用测序发掘通路差异,最后再进行通路检测和回复实验,套路化明显,思路直白清晰,非常合适硕士博士们模仿,快速发表文章。

参考文献
[1]Raoud Marayati, Laura L. Stafman et al.CRISPR/Cas9-mediated knockout of PIM3 suppresses tumorigenesis and cancer cell stemness in human hepatoblastoma cells.Cancer Gene Ther. 2022 May ; 29(5): 558–572. doi:10.1038/s41417-021-00334-4.
[2]TianzuoZhan,NiklasRindtorff et al. CRISPR/Cas9 for cancer research and therapy.Seminars in Cancer Biology Volume 55, April 2019, Pages 106-119,doi:org/10.1016/j.semcancer.2018.04.001.

Measure
Measure

点击数:0