基于多个位置权重矩阵的经典机器学习提高了转录因子结合位点的基因组预测

研究动机:转录因子识别的 DNA 基序通常表示为位置权重矩阵(position weight matrices, PWMs),其假设单个核苷酸对蛋白质结合特异性的贡献彼此独立。过去几十年中,人们提出了许多考虑位点贡献相关性的替代模型。然而,其性能提升通常并未超过 PWM 在简洁性、可解释性以及基于成熟代码库的实际适用性方面所具有的优势。现有软件工具和基序数据库常常会针对同一转录因子,甚至同一数据集...
生物信息学

研究动机:转录因子识别的 DNA 基序通常表示为位置权重矩阵(position weight matrices, PWMs),其假设单个核苷酸对蛋白质结合特异性的贡献彼此独立。过去几十年中,人们提出了许多考虑位点贡献相关性的替代模型。然而,其性能提升通常并未超过 PWM 在简洁性、可解释性以及基于成熟代码库的实际适用性方面所具有的优势。现有软件工具和基序数据库常常会针对同一转录因子,甚至同一数据集,提供多个彼此不完全相同的 PWM。

一个仍具有实际意义的问题是,是否能够将这些 PWM 有效整合为一个改进的单一模型。

结果:本文介绍了 ArChIPelago(https://github.com/autosome-ru/ArChIPelago),这是一个计算框架,利用经典机器学习技术(从线性回归到决策树集成)将多个 PWM 组合为联合模型。我们表明,这种组合能够提高对基因组序列中转录因子结合位点的预测性能。

基于一个多样化的数据集合——涵盖 704 个 ChIP-Seq 数据集,涉及 36 个人类和小鼠直系同源转录因子,且覆盖多种不同的结构家族——我们证明 ArChIPelago 的表现持续优于目前可获得的最佳单核苷酸和二核苷酸 PWM,以及稀疏局部非均匀混合模型。此外,结合人类和小鼠数据,我们证明了 PWM 集成模型能够进行可靠的跨物种预测。

注意:要求提供您的电子邮箱地址,仅用于将您标识为本文的发送者。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724515v1?rss=1

🏷️ 转录因子结合位点 位置权重矩阵 机器学习 ChIP-seq 基序整合

Administrator 2026年5月15日
Archive