跨生物学背景预测细胞对遗传或化学扰动的响应,是药物开发和疾病理解的核心问题。尽管数据规模和模型规模均有所增长,深度学习模型并未持续稳定地优于简单基线方法。
借助因果可迁移性理论,我们表明,跨背景泛化由共享的因果机制所支配,而不仅仅取决于分布相似性。为实现可控评估,我们开发了一个因果模拟器,能够生成具有可调机制差异的、真实感较强的半合成 Perturb-seq 数据集,从而提供具有已知真实因果结构的基准。此外,我们将 Vendi 多样性得分调整应用于扰动情境,将其作为诊断模式坍塌的工具;模式坍塌是一种标准的逐扰动指标无法察觉的失效模式。
我们在半合成和真实的 Perturb-seq 数据集上,对四种深度学习模型和六种简单基线方法进行了广泛实验,结果揭示了跨背景泛化鸿沟:在跨背景划分下,模型性能显著下降,并且常常降至简单基线方法的水平。值得注意的是,即使在具有完全明确因果结构的合成数据上,也没有任何模型能够跨具有不同因果机制的背景实现泛化。这些结果强调了跨背景评估、具备多样性感知的指标以及基于机制的归纳偏置的必要性。
P. Chapfuwa 为 Microsoft Research 员工,并持有 Microsoft Corporation 的股权。S. Qi 在 Microsoft Research 实习期间开展了本研究,并隶属于 Vector Institute 和多伦多大学。S. Qi 声明不存在任何利益冲突。在过去 36 个月内,除作者各自所在机构外,作者未从任何第三方获得任何可能被认为会影响所提交工作的付款或服务。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.08.723625v1?rss=1
🏷️ Perturb-seq 因果可迁移性 细胞扰动响应 跨背景泛化 深度学习评估 半合成数据集