当前位置: X-MOL 学术Genome Res. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A universal framework for detecting cis-regulatory diversity in DNA regions
Genome Research ( IF 6.2 ) Pub Date : 2021-09-01 , DOI: 10.1101/gr.274563.120
Anushua Biswas 1, 2 , Leelavati Narlikar 1, 2
Affiliation  

High-throughput sequencing-based assays measure different biochemical activities pertaining to gene regulation, genome-wide. These activities include transcription factor (TF)–DNA binding, enhancer activity, open chromatin, and more. A major goal is to understand underlying sequence components, or motifs, that can explain the measured activity. It is usually not one motif but a combination of motifs bound by cooperatively acting proteins that confers activity to such regions. Furthermore, regions can be diverse, governed by different combinations of TFs/motifs. Current approaches do not take into account this issue of combinatorial diversity. We present a new statistical framework, cisDIVERSITY, which models regions as diverse modules characterized by combinations of motifs while simultaneously learning the motifs themselves. Because cisDIVERSITY does not rely on knowledge of motifs, modules, cell type, or organism, it is general enough to be applied to regions reported by most high-throughput assays. For example, in enhancer predictions resulting from different assays—GRO-cap, STARR-seq, and those measuring chromatin structure—cisDIVERSITY discovers distinct modules and combinations of TF binding sites, some specific to the assay. From protein–DNA binding data, cisDIVERSITY identifies potential cofactors of the profiled TF, whereas from ATAC-seq data, it identifies tissue-specific regulatory modules. Finally, analysis of single-cell ATAC-seq data suggests that regions open in one cell-state encode information about future states, with certain modules staying open and others closing down in the next time point.

中文翻译:

检测 DNA 区域顺式调控多样性的通用框架

基于高通量测序的分析测量与全基因组基因调控有关的不同生化活动。这些活动包括转录因子 (TF)-DNA 结合、增强子活性、开放染色质等。一个主要目标是了解可以解释测量活动的潜在序列组件或基序。通常不是一个基序,而是由协同作用的蛋白质结合的基序组合赋予这些区域活性。此外,区域可以是多样化的,由不同的 TFs/motif 组合控制。当前的方法没有考虑到组合多样性的问题。我们提出了一个新的统计框架 cisDIVERSITY,它将区域建模为以基序组合为特征的不同模块,同时学习基序本身。因为 cisDIVERSITY 不依赖于基序、模块、细胞类型或生物体的知识,所以它足够通用,可以应用于大多数高通量分析报告的区域。例如,在由不同测定(GRO-cap、STARR-seq 和测量染色质结构的测定)产生的增强子预测中,cisDIVERSITY 发现了不同的模块和 TF 结合位点的组合,其中一些特定于测定。从蛋白质-DNA 结合数据中,cisDIVERSITY 识别出 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。或有机体,它足以应用于大多数高通量分析报告的区域。例如,在由不同测定(GRO-cap、STARR-seq 和测量染色质结构的测定)产生的增强子预测中,cisDIVERSITY 发现了不同的模块和 TF 结合位点的组合,其中一些特定于测定。从蛋白质-DNA 结合数据中,cisDIVERSITY 识别出 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。或有机体,它足以应用于大多数高通量分析报告的区域。例如,在由不同测定(GRO-cap、STARR-seq 和测量染色质结构的测定)产生的增强子预测中,cisDIVERSITY 发现了不同的模块和 TF 结合位点的组合,其中一些特定于测定。从蛋白质-DNA 结合数据中,cisDIVERSITY 识别出 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。在由不同测定(GRO-cap、STARR-seq 和测量染色质结构的测定)产生的增强子预测中,cisDIVERSITY 发现了不同的模块和 TF 结合位点的组合,其中一些特定于该测定。从蛋白质-DNA 结合数据中,cisDIVERSITY 识别出 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。在由不同测定(GRO-cap、STARR-seq 和测量染色质结构的测定)产生的增强子预测中,cisDIVERSITY 发现了不同的模块和 TF 结合位点的组合,其中一些特定于该测定。从蛋白质-DNA 结合数据中,cisDIVERSITY 识别出 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。cisDIVERSITY 识别出被分析的 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。cisDIVERSITY 识别出被分析的 TF 的潜在辅助因子,而从 ATAC-seq 数据中,它识别出组织特异性调节模块。最后,对单细胞 ATAC-seq 数据的分析表明,在一个细胞状态中打开的区域编码了有关未来状态的信息,某些模块保持打开状态,而其他模块在下一个时间点关闭。
更新日期:2021-09-01
down
wechat
bug