Bio-BLIP:一种用于基因组变异解读中可迁移推理的多模态架构

在生物学中构建科学假设需要整合跨越 DNA 序列、基因背景、蛋白质功能和既有文献的异质性证据。现有的多模态人工智能系统通常通过将生物学证据文本化,或将生物学嵌入投射到经过微调的语言模型中,向推理模型提供生物学证据。然而,这些模型通常都对其所微调的特定任务集合进行了高度优化。本文提出了 Bio-BLIP,这是一种基于多模态 Q-former 的架构,利用生物学嵌入和大型语言模型,在无需针对特定任务进...
生物信息学

在生物学中构建科学假设需要整合跨越 DNA 序列、基因背景、蛋白质功能和既有文献的异质性证据。现有的多模态人工智能系统通常通过将生物学证据文本化,或将生物学嵌入投射到经过微调的语言模型中,向推理模型提供生物学证据。然而,这些模型通常都对其所微调的特定任务集合进行了高度优化。本文提出了 Bio-BLIP,这是一种基于多模态 Q-former 的架构,利用生物学嵌入和大型语言模型,在无需针对特定任务进行微调的情况下泛化到复杂推理任务。

Bio-BLIP 的关键在于一种新的神经网络架构,该架构通过一个主 Q-former 模型整合四种数据模态——DNA、基因、蛋白质和文本——并将模态特异性信息整合为供大型语言模型骨干使用的固定长度前缀。Bio-BLIP 在人类遗传变异注释任务上进行了预训练,在生成准确变异特征方面较前沿大型语言模型提升了 29.8\%。我们在下游基因组学任务——变异优先级排序和目标基因预测——上对 Bio-BLIP 进行了零样本评估。

对于孟德尔病的调控变异优先级排序,Bio-BLIP 优于两种无比对的基因组语言模型。在目标基因预测任务中,Bio-BLIP 通过利用所学习的基因组变异知识,在困难案例上较大型语言模型提升了准确率。Bio-BLIP 还能稳定地产生丰富且透明的推理轨迹。在以多尺度数据和多样化下游任务为特征的生物学领域中,Bio-BLIP 为原生多模态、可泛化推理迈出了重要一步。

注意:请求您的电子邮箱地址仅用于将您识别为本文的发送者。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724740v1?rss=1

🏷️ 基因组变异解读 多模态学习 大型语言模型 变异优先级排序 目标基因预测 零样本推理

Administrator 2026年5月17日
Archive