OmniGene-4：具有路由器级可解释性的统一生物语言混合专家模型

混合专家（Mixture-of-Experts, MoE）架构为探查大型语言模型的内部组织提供了难得的机会，但这一特性在生物学基础模型构建中尚未得到系统性利用。我们提出了 OmniGene-4，这是一种统一的生物语言基础模型，基于 Gemma-4-26B-A4B（30 层、每层 128 个专家、top-8 路由）构建，通过注入 28,028 个生物学词元（DNA 和蛋白质 BPE、Foldseek...

生物信息学

混合专家（Mixture-of-Experts, MoE）架构为探查大型语言模型的内部组织提供了难得的机会，但这一特性在生物学基础模型构建中尚未得到系统性利用。

我们提出了 OmniGene-4，这是一种统一的生物语言基础模型，基于 Gemma-4-26B-A4B（30 层、每层 128 个专家、top-8 路由）构建，通过注入 28,028 个生物学词元（DNA 和蛋白质 BPE、Foldseek 3Di、DSSP 二级结构），在 32.5 GB 的 DNA、蛋白质、自然语言和结构语料混合数据上继续预训练（continuing pretraining, CPT），并在涵盖八类任务家族的 199,576 个指令格式样本上进行监督微调（supervised fine-tuning, SFT）。

在一组标准基准测试中，最终模型（v3）在 BioPAWS 标准蛋白同源性任务（6,000 对）上达到 99.95% 的准确率，在远程同源性任务（protein_pair_remote 中的 2,000 对）上达到 59.50%，并在 BixBench 知识问答上达到 93.66%。

相较于未经微调、仅扩展词表的 Gemma-4-Instruct 基线（85% / 60% / 87%），v3 在 Standard 上提升了 +14.5，在 Remote 上表现相当（-0.5，处于该 2,000 对样本统计噪声范围内），并在 BixBench 上提升了 +6.7。我们并不声称该模型已与专门的远程同源性工具达到同等水平；在采用不同构造划分的已发表结果中，ESM-2、CATHe 和 PLMSearch 可达到 65--75%，而如何缩小这一差距被视为一个开放问题。

通过在每个路由器上安装前向钩子，我们直接测量了 CPT 和 SFT 各自如何重塑专家路由。在从 8 种模态中抽取的 400 个提示上，对 30 层取平均后，任务路由分布两两之间的 Jensen--Shannon 散度均值从 0.138（词表扩展后的基线）上升至 CPT 后的 0.230，并在完整 CPT+SFT 流水线后进一步升至 0.232。

在这一按层平均的指标下，大部分增幅（Delta JS +0.092）发生于 CPT 阶段，而 SFT 阶段仅带来较小的进一步上升（Delta JS +0.002）。按层观察的图景则更为细致：CPT 重塑了 Transformer 中间层（L_11--L_22，L_12 处峰值为 +0.16）的路由，而 SFT 主要重塑最后两层（L_28、L_29，L_29 处峰值为 +0.048），因此尽管在聚合指标下 SFT 的影响较小，但在最接近 lm_head 的层上其作用并非微不足道。

我们将此概括为生物基础模型训练中一种暂定的“表征/输出对齐”分解。在词元层面，第 12 层路由揭示出若干具有强烈偏斜词元偏好的专家，包括一个自然语言纯度达 80% 的英语功能词专家、两个 DNA 二核苷酸专家、一个氨基酸专家以及一个细胞生物学专家；其他专家的绝对纯度则较为有限（15--46%），并且我们不假定“相同的专家 ID”在不同层中指代同一对象。这些发现具有探索性——基于单一架构、单次训练运行以及小样本量的路由采样——我们在全文中也明确如此界定。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.05.12.724542v1?rss=1

🏷️ 生物语言模型混合专家模型基础模型蛋白质同源性多模态生物序列

在 WEC技术前瞻

# 基础模型多模态生物序列混合专家模型生物语言模型蛋白质同源性

Administrator 2026年5月15日

OmniGene-4：具有路由器级可解释性的统一生物语言混合专家模型

标签

我们的博客

存档

跟随我们