染色体尺度的组装结果在非模式生物中正日益可得,但功能注释仍然受限,因为尽管蛋白质结构相似性可以保持保守,深层进化分化却会削弱一级氨基酸序列同一性。我们提出了一种混合注释框架,通过将基于 Evo2 的外显子—内含子结构从头预测与基于 ESM-2 蛋白嵌入的结构相似性映射相结合,将基因模型发现与跨物种相似性指派解耦。
应用于海七鳃鳗时,该框架为 73,485 个基于 Evo2 推导的翻译蛋白模型提供了高置信度或中等置信度的跨物种相似性指派,其中包括 35,395 个高置信度结果,并将去冗余结构目录扩展至 31,286 个位点,其中包括 20,871 个在 Ensembl 基线中不存在的新增位点。
联合比对—结构分类鉴定出 21,391 个具有结构支持的目录位点,而固定的人类 DIAMOND 蛋白搜索本身无法对其进行可靠指派,其中包括 21,184 个未检测到任何人类蛋白序列匹配的位点,以及 207 个仅在经典的 20–30% 氨基酸同一性“曙暮区”中具有低置信度匹配的位点。这些“救援空间”总数描述的是目录位点,而非经验证的一对一、在人类中缺失的基因。
在单细胞 RNA 测序应用中,更严格且考虑 UTR 的 Ensembl+Evo2 参考集合相较于 Ensembl 基线提高了基因检出率,并扩展了七鳃鳗免疫区室中可解释的特征空间。这使得对四种由转录特征定义的免疫细胞状态进行更高分辨率的注释成为可能,其中包括与 VLRA+ 相关的 T 样程序、与 VLRB+ 相关的 B 样程序,以及氧化型铁处理状态和铁相关的 VLR 关联状态。
总之,这些结果表明,蛋白质结构信号往往能够在超出成对序列比对极限之外持续存在,而基于嵌入的注释层能够延展这种信号,从而改进进化上高度分化基因组中的下游比较分析和单细胞分析。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.15.724572v1?rss=1
🏷️ 基因组注释 基础模型 蛋白质嵌入 跨物种同源推断 非模式生物