注:文末有研究团队简介及本文科研思路分析
细胞是生命的基本单元,正在进行的人类细胞图谱计划(Human Cell Atlas Consortium)旨在系统性定义和厘清多种细胞类型。人体中不同类型的细胞,如视网膜细胞、皮肤细胞和神经细胞等都在生命活动中不可或缺,这些细胞都有一个共同的起源—受精卵。受精卵分裂成具有全能性的胚胎干细胞,进而通过分裂、分化转化成不同“身份”的细胞。决定细胞身份的重要因子之一就是转录因子,它们能结合到基因组特定的序列上,从而起调控特定基因作用的。通过开启或者关闭几个转录因子实现细胞类型的转化(细胞重编程),不仅具有重要的科研价值,也具有重要的临床意义。
从原细胞转化为靶细胞,需要两种转录因子。一种能够激活靶细胞的相应功能,称之为先锋转录因子(pioneer TF);另外一种转录因子是要维持靶细胞的功能,关闭掉原来细胞的功能,称之为守卫转录(safeguard TF)。研究这两种转录因子的组合模式有助于揭示细胞重编程的机理。美国Whitehead研究所的Richard Young教授研究组等用特异性高表达作为先锋转录因子的特征,系统性地将人类233种细胞类型的先锋转录因子识别出来。而守卫转录因子的基因组学特征还比较模糊,2017年由斯坦福大学的Marius Wernig 教授实验室通过大量实验证实Myt1l为神经谱系的守卫转录因子。但目前尚缺少系统性识别守卫转录因子的模型和工具。
近日,中国科学院数学与系统科学研究院王勇研究员团队,构建细胞类型-转录因子的特异性网络,在网络和高通量数据中挖掘出转录因子特征,进而识别出了覆盖所有细胞类型的一组稳定的最小转录因子集合,作为守卫转录因子集(图1)。
具体地说,作者连接各细胞类型与特异性高表达的前30个转录因子,构建细胞类型-特异转录因子网络。图2A展示了已经在细胞重编程实验中被验证的转录因子导出子网络,该结果表明构建的网络跟已验证结果的一致性。从该网络中,发现已报道的神经细胞的守卫转录因子MYT1L的度为35(网络中一阶邻居的个数,即MYT1L在35个细胞类型中特异表达),而神经细胞的先锋转录因子NEUROD1度为4;如图2B、2C所示,在公开数据库GTEx的表达数据中,可以看到MYT1L在13个组织中的表达值(TPM)中位数大于2,对应NEUROD1的组织只有3个。根据二者对比,认为守卫转录因子在网络中倾向于有较高的度,与其具有多细胞特异性的功能一致。同时根据奥卡姆剃刀原理对简单性的偏好,全局来看,所有细胞类型对应的守卫因子的集合中应该包含尽量少的转录因子,即简约性。为了找到满足多细胞特异性和简约性的一组稳定转录因子,作者对网络进行二次抽样,随机去除10%细胞类型,得到1000个子网络,在子网络中用集合覆盖模型找到覆盖所有细胞类型的转录因子集合。最后合并1000次抽样的结果对转录因子排序,得到30个守卫转录因子。如图2D所示,这30个转录因子将同谱系(lineage)的细胞类型聚类到同一个类型中。
为了进一步验证守卫转录因子并挖掘它们的作用特性,作者构建了守卫转录因子和所有转录因子之间的蛋白质相互作用网络(图3A)。如图3B所示,已经验证的细胞核重编程转录因子富集在这个网络中(p值0.0068,超几何检验)。另外,作者构建了守卫转录因子和染色质调控因子(CR)的蛋白质相互作用网络(图3C)。同样地,染色质调控因子跟守卫转录因子的相互作用显著高于随机选取30个转录因子(p值0.0388,图3D)。作者进一步探索守卫转录因子的生物学特征。从功能富集的结果,守卫转录因子会倾向于在分化和发育的早期起作用;通过分析守卫转录因子与不同细胞类型的标志基因(marker gene),守卫转录因子倾向于抑制其他谱系的标志基因;另外,守卫转录因子的调控元件中远端调控元件的比例更高。
作者构建细胞类型-特异转录因子网络,系统性地识别了人类和小鼠的30个守卫转录因子,为守卫转录因子的研究提供了新思路和新工具,有助于更好的理解细胞核重编程的转录因子的组合。该研究成果2020年6月1日在线发表于Cell旗下子刊iScience 上,文章的第一作者是中国科学院数学与系统研究院的博士研究生苑秋月同学。
原文:
https://www.cell.com/iscience/fulltext/S2589-0042(20)30412-0
3Scover: Identifying Safeguard TF from Cell Type-TF Specificity Network by an Extended Minimum Set Cover Model
Yuan Qiuyue, Wang Yong.
iScience, 2020, DOI: 10.1016/j.isci.2020.101227
王勇研究员简介
王勇研究员课题组主要从事数学与生物信息学、系统生物学的交叉研究,采用最优化方法和数学建模的方式,以生物分子网络和复杂生物数据集成为主线研究生物医学大数据的建模与分析,提炼数学理论和算法,解决生物医学中的关键问题。(1)重点研究生物分子网络建模,研究生成高维、多层面、异源、高噪声的“组学”数据的生物分子网络,揭示因果关系。(2)重点研究生物医学数据分析集成,研究数据的基本数学结构,通过建模分离信号与噪声。近年来特别聚焦基因调控网络研究,建模复杂表型的发生发展过程的基因调控网络及其驱动下的演化过程,发展数学模型和计算方法分析、集成生物医学大数据,推断因果调控关系,从数据中深度挖掘信息和规律。
实验室主页:
https://wanglab-amss.github.io/
X-MOL导师介绍:
王勇
https://www.x-mol.com/university/faculty/184220
科研思路分析
Q:这项研究最初是什么目的?或者说想法是怎么产生的?
A:转录因子是决定细胞命运的关键分子。2012年获诺奖的工作中,日本京都大学山中伸弥研究团队把4个转录因子组合,通过逆转录病毒载体转入小鼠的成纤维细胞,使其转变多功能干细胞。随后大量的细胞重编程实验纷纷证实了转录因子组合在决定细胞身份的重要作用,但是这些转录因子是如何组合的?能否找到规律发展方法一次性找到所有细胞类型的重编程转录因子?类比于美式橄榄球队,需要进攻组和防守组两套队伍,将原细胞转化为靶细胞,需要两种转录因子。一种能够激活靶细胞的相应功能,称之为先锋转录因子(Pioneer TF);另外一种转录因子是要维持靶细胞的功能,压制原来细胞的功能,称之为守卫转录因子 (Safeguard TF)。2015年美国Whitehead研究所的Richard Young教授研究组,利用特异性高表达作为先锋转录因子的特征,系统性识别了233种细胞的核心转录因子。2017年斯坦福大学的Marius Wernig 教授实验室正式提出了守卫转录因子的概念,通过大量实验证实Myt1l为神经谱系的一个守卫转录因子,但目前没有系统性识别守卫转录因子的模型和工具。因此我们想尝试一下发展新的计算方法,从组学数据构建细胞类型和转录因子的关系,并提炼出守卫转录因子的特征,进而系统识别守卫转录因子。
Q:研究过程中遇到哪些挑战?
A:主要挑战有三个。一是如何建模已有公开组学数据,建立全局的细胞类型与转录因子之间的关系。二是实验确认的守卫转录因子很少,这样就很难利用统计或者机器学习的方法在高通量数据中去寻找守卫转录因子的特征。为了克服这个问题,我们对MYT1L这样一个神经谱系的守卫转录因子,观察其在细胞类型-特异转录因子网络中的拓扑性质,并与先锋转录因子做了详细对比,得到的规律用于数学定量。第三作为一个纯计算的实验室,我们无法通过实验来验证预测的守卫转录因子。只能更多的依赖于独立的公开数据,通过多种角度来寻找支持证据。
Q:该研究成果可能有哪些重要的应用?哪些领域的企业或研究机构可能从该成果中获得帮助?
A:2014年上海生命科学研究院惠利健研究小组成功将人类非肝细胞直接转分化为功能肝细胞,这项成果也成为推进生物人工肝在临床应用的关键环节。另外眼科专家Sai Chavala博士的团队,把皮肤细胞直接改造成视网膜的感光细胞,将这种细胞移植到小鼠眼睛中,失明小鼠得以重见光明。通过这两个例子就可以看出,我们如果揭示细胞重编程中转录因子的组合机理,身体中任何的细胞类型的损伤都可以用皮肤细胞或者其他细胞去产生。我们的工作提供了细胞重编程细胞中一类重要的转录因子—守卫转录因子的列表,同时也探索了守卫转录因子的生物学特征,有助于更好的理解细胞核重编程的机理。
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!