ConvergeCELL:从患者转录组学到治疗假设的端到端平台

将转录组学数据转化为治疗假设的过程仍然是碎片化且劳动密集型的。在此,我们提出 ConvergeCELL,这是一个整合了以下组件的平台:一个基于 4,479 名患者、超过 2,000 万个细胞训练的患者表征模型,一个用于基因发现的可解释性框架,以及一个由大语言模型驱动的工作流,该工作流能够沿证据层级对候选对象进行分类,并构建作用机制假设。在涵盖狼疮、多发性骨髓瘤和脓毒症的留出队列上,并跨越单细胞与 ...
生物信息学

将转录组学数据转化为治疗假设的过程仍然是碎片化且劳动密集型的。在此,我们提出 ConvergeCELL,这是一个整合了以下组件的平台:一个基于 4,479 名患者、超过 2,000 万个细胞训练的患者表征模型,一个用于基因发现的可解释性框架,以及一个由大语言模型驱动的工作流,该工作流能够沿证据层级对候选对象进行分类,并构建作用机制假设。

在涵盖狼疮、多发性骨髓瘤和脓毒症的留出队列上,并跨越单细胞与 bulk 模态进行验证后,ConvergeCELL 在疾病相关基因恢复方面达到或超过了差异表达、机器学习以及患者级基础模型(PaSCient)基线的表现。

其优势在经过临床验证的疾病特异性药物靶点上最为显著:ConvergeCELL 将 TNFSF13B(Belimumab;狼疮)、TNFRSF17/BCMA(Belantamab;骨髓瘤)和 CXCR4(Plerixafor;骨髓瘤)排在其基因排序的前 0.3% 之内——显著优于其他替代方法。ConvergeCELL 提供了一个端到端的转化工作流,在疾病相关基因恢复和患者级疾病分类两项任务上均达到了当前最先进的性能。

预训练的 ConvergeCELL 患者表征模型及其 bulk 蒸馏模块已在 Hugging Face(huggingface.co/ConvergeBio/virtual-cell-patient)公开发布,并采用 Apache 2.0 许可证。

所有作者均为 Converge Bio Ltd. 的员工。

感谢您有兴趣帮助传播 bioRxiv 的信息。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.07.723555v1?rss=1

🏷️ 转录组学 单细胞测序 患者表征模型 治疗靶点发现 大语言模型 疾病分类

Administrator 2026年5月15日
我们的博客
存档