任务专用蛋白质语言模型解析翻译后修饰位点的序列语法

翻译后修饰(PTMs)调控蛋白质信号传导、定位、降解以及细胞决策过程,然而,在蛋白质组尺度上,区分已被修饰残基与那些在化学上具备修饰可能性但实际上未被修饰残基的序列决定因素,仍然难以解析。在此,我们考察将通用蛋白质语言模型适配于 PTM 位点预测,是否能够揭示残基水平修饰背后的生化逻辑。我们对 ESM2——一种基于数千万条具有进化多样性的蛋白质序列训练得到的蛋白质语言模型——进行了微调,用于磷酸化...
生物信息学

翻译后修饰(PTMs)调控蛋白质信号传导、定位、降解以及细胞决策过程,然而,在蛋白质组尺度上,区分已被修饰残基与那些在化学上具备修饰可能性但实际上未被修饰残基的序列决定因素,仍然难以解析。在此,我们考察将通用蛋白质语言模型适配于 PTM 位点预测,是否能够揭示残基水平修饰背后的生化逻辑。我们对 ESM2——一种基于数千万条具有进化多样性的蛋白质序列训练得到的蛋白质语言模型——进行了微调,用于磷酸化、乙酰化和泛素化位点预测。

为应对蛋白质组范围 PTM 注释中固有且显著的类别不平衡问题,我们将参数高效微调与 focal loss 训练相结合。所得的任务专用模型表明,PTM 识别取决于模型容量、注释深度和修饰化学性质:磷酸化从更大规模模型中获益,而乙酰化和泛素化则在中等规模时达到性能峰值。

更为重要的是,经过微调的磷酸化模型揭示了三个层次的生物学组织结构:它在没有激酶标签监督的情况下恢复了经典的激酶识别基序;基于由序列导出的嵌入表示,解析了蛋白质之间通路层面的功能关系;并保留了 200 个真核物种中同源磷酸化位点的进化特征。这些结果确立了任务专用蛋白质语言模型作为可解释工具的地位,可用于探究 PTM 位点生物化学、激酶特异性、功能组织以及进化保守性。

感谢您有兴趣帮助传播 bioRxiv 上的研究成果。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.08.723918v1?rss=1

🏷️ 蛋白质语言模型 翻译后修饰 位点预测 磷酸化 序列语法 模型微调

Administrator 2026年5月12日
Archive