Nat. Methods | 拨云见日的尝试——如何更好地发现细胞分化的重编程因子并给其排序
原创WangLab 王初课题组 2022-07-04 17:38 发表于北京
大家好!今天推荐一篇发表在nature methods上的文章:“Ranking reprogramming factors for celldifferentiation”,通讯作者是MIT的David Gifford,他们课题组感兴趣于生成更合适的模型去指导实验设计并相互促进和优化,目前其关注的领域包括运动神经元发育,单细胞扰动研究,染色质可及性的调节等等。
将细胞重编程为特定的细胞类型,是再生医学和治疗非常具有前景的发展领域。其中,转录因子过表达是一种已被证实可行的方法能够实现细胞的重编程,使其向特定类型的细胞进行分化。然而,到目前为止,如何准确确定任意一种细胞类型的重编程因子还是一个开放性的问题。本文作者使用同一份数据,针对8种特定的细胞类型和其中已知的重编程因子,对目前被较为广泛使用和认可的9种计算方法进行了评估,对比其对已知重编程因子的发掘程度和排序情况。
通过计算方法发现重编程因子,主要是基于初始细胞和分化细胞中的RNA seq或ATAC-seq(the assay for transposase-accessible chromatin with sequencing)数据。RNA seq用于表征细胞内转录因子基因的差异性表达,相对于初始细胞在分化细胞中更高表达的转录因子更可能是重编程因子。ATAC-seq则是利用DNA转座酶结合高通量测序技术,来研究染色质可及性的方法,能够告知基因组中所有活跃转录的序列,通过对这一数据进行挖掘和序列的分析,能够找到相对于初始细胞在分化细胞中更为富集的转录因子结合位点或基序,从而推断出编程因子。文中所评估的9种计算方法,其中CellNet和EBseq在实验方面主要是基于基因的差异性表达进行预测的,其中CellNet还加入了特定细胞类型中已知的特定生物信息学网络这一信息进行评估;GarNet则利用了基因差异性表达和染色质可及性这两方面的信息;AME, DREME, HOMER, KMAC, diffTF和DeepAccess在实验数据方面则主要使用染色质可及性的数据信息,其中,diffTF 和DeepAccess更为复杂,在染色质可及性数据的基础上还添加了其他实验数据,DeepAccess还使用了更为复杂的深度学习方法。
使用同一套数据,针对8种特定的细胞类型,作者对这9种方法对应的参数设置进行了优化,并进行了结果的评估,观察他们对各细胞类型中已知的重编程因子的召回率和排序情况。结果显示,利用染色质可及性数据的计算方法均明显由(优)于基因差异性表达的,其中AME和diffTF结果最为优异,(能不能利用算法发现新的成骨分化相关的转录因子?)此外作者还发现组蛋白标记和EP300注释并不能显著提高转录因子的召回率,说明对于特定细胞类型特别是新细胞类型中重编程因子的发现而言,染色质可及性是相当关键和主要的信息。利用了基因差异性表达和染色质可及性这两方面信息的GarNet表现不佳,作者认为是其方法基于的假设有待优化所致。
值得注意的是,在多数的细胞类型中,各种方法对已知重编程因子的排序差异性较大;前10个潜在重编程因子中,没有一种方法能够获得统一的已知重编程因子的高召回率。因此利用这些计算方法去准确预测特定细胞类型中的重编程因子还具有很大的发展空间,同时实验方面的发展和促进也十分关键。
本文作者:CXM
责任编辑:Guo ZH
原文链接:https://www.nature.com/articles/s41592-022-01522-2
文章引用:DOI: 10.1038/s41592-022-01522-2