混合专家(Mixture-of-Experts, MoE)架构为探查大型语言模型的内部组织提供了难得的机会,但这一特性在生物学基础模型构建中尚未得到系统性利用。
我们提出了 OmniGene-4,这是一种统一的生物语言基础模型,基于 Gemma-4-26B-A4B(30 层、每层 128 个专家、top-8 路由)构建,通过注入 28,028 个生物学词元(DNA 和蛋白质 BPE、Foldseek 3Di、DSSP 二级结构),在 32.5 GB 的 DNA、蛋白质、自然语言和结构语料混合数据上继续预训练(continuing pretraining, CPT),并在涵盖八类任务家族的 199,576 个指令格式样本上进行监督微调(supervised fine-tuning, SFT)。
在一组标准基准测试中,最终模型(v3)在 BioPAWS 标准蛋白同源性任务(6,000 对)上达到 99.95% 的准确率,在远程同源性任务(protein_pair_remote 中的 2,000 对)上达到 59.50%,并在 BixBench 知识问答上达到 93.66%。
相较于未经微调、仅扩展词表的 Gemma-4-Instruct 基线(85% / 60% / 87%),v3 在 Standard 上提升了 +14.5,在 Remote 上表现相当(-0.5,处于该 2,000 对样本统计噪声范围内),并在 BixBench 上提升了 +6.7。我们并不声称该模型已与专门的远程同源性工具达到同等水平;在采用不同构造划分的已发表结果中,ESM-2、CATHe 和 PLMSearch 可达到 65--75%,而如何缩小这一差距被视为一个开放问题。
通过在每个路由器上安装前向钩子,我们直接测量了 CPT 和 SFT 各自如何重塑专家路由。在从 8 种模态中抽取的 400 个提示上,对 30 层取平均后,任务路由分布两两之间的 Jensen--Shannon 散度均值从 0.138(词表扩展后的基线)上升至 CPT 后的 0.230,并在完整 CPT+SFT 流水线后进一步升至 0.232。
在这一按层平均的指标下,大部分增幅(Delta JS +0.092)发生于 CPT 阶段,而 SFT 阶段仅带来较小的进一步上升(Delta JS +0.002)。按层观察的图景则更为细致:CPT 重塑了 Transformer 中间层(L_11--L_22,L_12 处峰值为 +0.16)的路由,而 SFT 主要重塑最后两层(L_28、L_29,L_29 处峰值为 +0.048),因此尽管在聚合指标下 SFT 的影响较小,但在最接近 lm_head 的层上其作用并非微不足道。
我们将此概括为生物基础模型训练中一种暂定的“表征/输出对齐”分解。在词元层面,第 12 层路由揭示出若干具有强烈偏斜词元偏好的专家,包括一个自然语言纯度达 80% 的英语功能词专家、两个 DNA 二核苷酸专家、一个氨基酸专家以及一个细胞生物学专家;其他专家的绝对纯度则较为有限(15--46%),并且我们不假定“相同的专家 ID”在不同层中指代同一对象。这些发现具有探索性——基于单一架构、单次训练运行以及小样本量的路由采样——我们在全文中也明确如此界定。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724542v1?rss=1
🏷️ 生物语言模型 混合专家模型 基础模型 蛋白质同源性 多模态生物序列