BiomniBench:面向真实世界生物医学研究的大语言模型智能体过程级评测

大型语言模型(LLM)智能体如今已能够开展真实的生物医学研究,但对其进行严格评估仍然十分困难。仅基于结果的基准评测在两个方面存在失效。首先,正确的最终答案可能源于记忆、奖励破解,或因偶然得到正确数值的错误推理。其次,仅仅因为与参考答案不同,合理的替代性分析也会被判定为错误。我们提出了 BiomniBench,这是一种过程层面的评估框架,依据由专家设计、针对具体任务的评分细则,对智能体的完整轨迹进行...
生物信息学

大型语言模型(LLM)智能体如今已能够开展真实的生物医学研究,但对其进行严格评估仍然十分困难。仅基于结果的基准评测在两个方面存在失效。首先,正确的最终答案可能源于记忆、奖励破解,或因偶然得到正确数值的错误推理。其次,仅仅因为与参考答案不同,合理的替代性分析也会被判定为错误。我们提出了 BiomniBench,这是一种过程层面的评估框架,依据由专家设计、针对具体任务的评分细则,对智能体的完整轨迹进行评分。

其首个实例 BiomniBench-DA 包含 100 个数据分析任务,覆盖 17 种分析任务类型、5 个疾病领域以及一个普通生物学类别;每项任务均基于发表于 Nature、Cell 和 Science 等顶级期刊的高影响力论文,并由原始论文作者或经验丰富的领域专家共同开发。

对前沿模型和开放权重模型在四种智能体运行框架下进行基准测试揭示了三点发现:(1)前沿模型处于领先地位,但仍有显著提升空间;(2)智能体运行框架对得分的影响与基础模型本身相当;(3)智能体在方法选择、生物学解释和科学推理方面反复表现不足。BiomniBench 是首个面向真实世界生物医学研究中 AI 智能体的过程层面基准,揭示了仅基于结果的评估无法发现的失效模式。

作者声明不存在竞争性利益关系。

感谢您有兴趣帮助传播有关 bioRxiv 的信息。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724604v1?rss=1

🏷️ 大语言模型智能体 过程级评测 生物医学研究 基准测试 数据分析

Administrator 2026年5月15日
Archive