当前位置: X-MOL 学术Proc. Natl. Acad. Sci. U.S.A. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Discovering unknown human and mouse transcription factor binding sites and their characteristics from ChIP-seq data [Genetics]
Proceedings of the National Academy of Sciences of the United States of America ( IF 9.4 ) Pub Date : 2021-05-18 , DOI: 10.1073/pnas.2026754118
Chun-Ping Yu, Chen-Hao Kuo, Chase W. Nelson, Chi-An Chen, Zhi Thong Soh, Jinn-Jy Lin, Ru-Xiu Hsiao, Chih-Yao Chang, Wen-Hsiung Li

Transcription factor binding sites (TFBSs) are essential for gene regulation, but the number of known TFBSs remains limited. We aimed to discover and characterize unknown TFBSs by developing a computational pipeline for analyzing ChIP-seq (chromatin immunoprecipitation followed by sequencing) data. Applying it to the latest ENCODE ChIP-seq data for human and mouse, we found that using the irreproducible discovery rate as a quality-control criterion resulted in many experiments being unnecessarily discarded. By contrast, the number of motif occurrences in ChIP-seq peak regions provides a highly effective criterion, which is reliable even if supported by only one experimental replicate. In total, we obtained 2,058 motifs from 1,089 experiments for 354 human TFs and 163 motifs from 101 experiments for 34 mouse TFs. Among these motifs, 487 have not previously been reported. Mapping the canonical motifs to the human genome reveals a high TFBS density ±2 kb around transcription start sites (TSSs) with a peak at −50 bp. On average, a promoter contains 5.7 TFBSs. However, 70% of TFBSs are in introns (41%) and intergenic regions (29%), whereas only 12% are in promoters (−1 kb to +100 bp from TSSs). Notably, some TFs (e.g., CTCF, JUN, JUNB, and NFE2) have motifs enriched in intergenic regions, including enhancers. We inferred 142 cobinding TF pairs and 186 (including 115 completely) tethered binding TF pairs, indicating frequent interactions between TFs and a higher frequency of tethered binding than cobinding. This study provides a large number of previously undocumented motifs and insights into the biological and genomic features of TFBSs.



中文翻译:

从 ChIP-seq 数据中发现未知的人和小鼠转录因子结合位点及其特征 [遗传学]

转录因子结合位点 (TFBS) 对基因调控至关重要,但已知 TFBS 的数量仍然有限。我们旨在通过开发用于分析 ChIP-seq(染色质免疫沉淀随后测序)数据的计算管道来发现和表征未知的 TFBS。将其应用于人类和小鼠的最新 ENCODE ChIP-seq 数据,我们发现使用不可重复的发现率作为质量控制标准导致许多实验被不必要地丢弃。相比之下,ChIP-seq 峰区域中的基序出现次数提供了一个非常有效的标准,即使仅由一个实验重复支持,该标准也是可靠的。总的来说,我们从 354 个人类 TF 的 1,089 个实验中获得了 2,058 个基序,从 34 个小鼠 TF 的 101 个实验中获得了 163 个基序。在这些主题中,487 以前没有被报道过。将规范基序映射到人类基因组显示转录起始位点 (TSS) 周围有 ±2 kb 的高 TFBS 密度,峰值为 -50 bp。平均而言,一个启动子包含 5.7 个 TFBS。然而,70% 的 TFBS 位于内含子 (41%) 和基因间区域 (29%),而只有 12% 位于启动子中(-1 kb 到 +100 bp 来自 TSS)。值得注意的是,一些 TF(例如 CTCF、JUN、JUNB 和 NFE2)具有富含基因间区域的基序,包括增强子。我们推断出 142 个共结合 TF 对和 186 个(包括 115 个完全)系留结合 TF 对,表明 TF 之间的频繁相互作用和系留结合的频率高于共结合。这项研究提供了大量以前未记录的基序以及对 TFBS 的生物学和基因组特征的见解。将规范基序映射到人类基因组显示转录起始位点 (TSS) 周围有 ±2 kb 的高 TFBS 密度,峰值为 -50 bp。平均而言,一个启动子包含 5.7 个 TFBS。然而,70% 的 TFBS 位于内含子 (41%) 和基因间区域 (29%),而只有 12% 位于启动子中(-1 kb 到 +100 bp 来自 TSS)。值得注意的是,一些 TF(例如 CTCF、JUN、JUNB 和 NFE2)具有富含基因间区域的基序,包括增强子。我们推断出 142 个共结合 TF 对和 186 个(包括 115 个完全)系留结合 TF 对,表明 TF 之间的频繁相互作用和系留结合的频率高于共结合。这项研究提供了大量以前未记录的基序以及对 TFBS 的生物学和基因组特征的见解。将规范基序映射到人类基因组显示转录起始位点 (TSS) 周围有 ±2 kb 的高 TFBS 密度,峰值为 -50 bp。平均而言,一个启动子包含 5.7 个 TFBS。然而,70% 的 TFBS 位于内含子 (41%) 和基因间区域 (29%),而只有 12% 位于启动子中(-1 kb 到 +100 bp 来自 TSS)。值得注意的是,一些 TF(例如 CTCF、JUN、JUNB 和 NFE2)具有富含基因间区域的基序,包括增强子。我们推断出 142 个共结合 TF 对和 186 个(包括 115 个完全)系留结合 TF 对,表明 TF 之间的频繁相互作用和系留结合的频率高于共结合。这项研究提供了大量以前未记录的基序以及对 TFBS 的生物学和基因组特征的见解。

更新日期:2021-05-11
down
wechat
bug