我的位置: 上观号 > 上海科技 > 文章详情

上海AI实验室推出新一代蛋白质大模型书生AMix,加速生命科学发现

转自:上海科技 2026-04-25 11:10:48

近日,上海人工智能实验室(上海AI实验室)联合清华大学智能产业研究院、复旦大学等高校推出新一代蛋白质基座模型——书生AMix,在蛋白质理解与设计等任务上均达到领先水平。

在2025年7月推出的蛋白质基座模型AMix-1的基础上,书生AMix进一步引入文本模态,以扩散大语言模型(Diffusion Large Language Models, dLLMs)为核心架构,对自然语言、蛋白质序列、蛋白语义理解、功能序列设计统一建模,从而将蛋白质模态原生融入大模型多模态认知框架,推动大模型由工具调用向蛋白深度理解、自主原生设计升级。此外,科研团队还构建了针对蛋白质理解与设计的评测体系ProteinArena,为蛋白质模型提供公平、严谨的评测依据。

上海AI实验室将对书生AMix模型与代码全面开源,提供开放可复现的基座,助力生命科学基础研究发展,进而加速药物设计、酶工程、合成生物学等领域的产业落地。

与主流大模型、蛋白质专有模型和工具对比,书生AMix在蛋白质理解与设计任务上均表现领先

升级版的书生AMix聚焦突破大模型的蛋白质原生理解与设计能力,联合科研团队从建模范式、底层架构、科学评测三个核心维度系统推进。

建模范式:模型对任务的统一理解与生成

传统蛋白质基座模型仅建模蛋白质序列,具有任务专用性特征,其功能呈现碎片化:用于蛋白质功能理解的模型与用于序列设计的模型相互独立,即便针对同类任务的细微调整,也需对模型进行重新微调,存在效率低下、兼容性不足等问题。

书生AMix打通了自然语言与蛋白质序列空间,依托大模型的文本指令遵循能力,实现了蛋白质理解与生成任务的统一。当用户输入自然语言指令与蛋白质序列,模型可完成对蛋白质各项功能与性质的解析;当用户输入蛋白质功能设计指令,模型可直接生成符合要求的蛋白质序列,无需额外进行模型调试。

该突破的核心在于蛋白质文本数据的合成与对齐科研团队整合Swiss-Prot、InterPro、TrEMBL等蛋白质数据库,将其中零散的结构化数据,重构为连贯的蛋白质背景知识与指令问答样本(如,该蛋白质的核心功能是什么?设计一种可催化特定反应的蛋白质序列)。通过联合训练,模型可将理解任务中积累的序列与功能关联知识,有效迁移至生成任务中,为蛋白质设计提供更合理的生物学约束,实现理解与生成能力的双向赋能、协同提升。

底层架构:构建文本与蛋白质的跨模态融合路径

书生AMix采用了扩散大语言模型(dLLMs)作为核心架构,通过迭代去噪的方式,让模型具备同时感知蛋白质全局功能约束和局部位点细节的能力。

该架构具备三大显著优势:一是天然支持双向上下文理解,可全面兼顾蛋白质序列的前后关联关系;二是支持局部区域编辑,能够针对蛋白质关键功能区域开展精准优化;三是可实现条件可控生成,依据具体需求生成符合约束条件的蛋白质。在低数据、高约束、高组合依赖的蛋白质研究场景中,扩散语言模型相较于传统自回归模型具有更高的数据效率,突破了单向解码的监督信号局限,通过学习“任意条件与掩码下的序列补全”,展现出优于自回归模型的泛化能力。

值得关注的是,书生AMix采用块级扩散(Block-wise Diffusion)范式,其核心机制为“块间因果约束、块内双向扩散”:在数据块之间维持从左到右的依赖约束,保障蛋白质序列的全局连贯性与生成质量;在数据块内部,通过扩散过程实现迭代去噪,使模型能够同步感知局部关键功能区域的前后文约束,兼顾了自回归模型的高质量逻辑与扩散模型的并行高效优势。

书生AMix采用块级扩散(Block-wise Diffusion)范式,融合块间全局连贯性与块内双向感知,符合长序列的宏观逻辑与关键位点的微观约束。图中蓝色表示文本模态,橙色表示蛋白模态,虚线表示不参与训练损失计算

科学评测:推出蛋白质理解与设计的科学评测体系ProteinArena

当前蛋白质模型评测领域存在一项关键痛点:多数模型在划分训练集与测试集时,未实施严格的同源去重处理,导致蛋白质序列信息泄露。这一问题使得模型在测试过程中易依托训练集序列的同源性进行推理,而非真正掌握决定蛋白质功能的底层理化规律,进而导致评测结果缺乏公正性与可信度。

为解决上述问题,上海AI实验室构建了ProteinArena评测集,严格依据时间戳与同源性标准划分各类蛋白质任务的训练集与测试集,从而规避了高同源蛋白质引发的信息泄露问题,为蛋白质模型评测提供了公平、严谨的标准。

ProteinArena主要划分为原生蛋白理解与原生蛋白设计两大类任务,全面覆盖蛋白质研究的核心需求:

原生蛋白理解:基于2025年后Swiss-Prot数据库新收录、且与训练集同源性低于30%的蛋白质,构建包含18个细分评测任务的体系,涵盖16类常见蛋白质知识任务、481个样本的通用蛋白质问答,以及细粒度的EC四级酶功能分类与CATH四级结构层级分类。其中,通用问答以准确率为核心指标,衡量模型的蛋白质知识理解能力;EC与CATH任务除引入通用大模型外,还纳入ESM2、ESM3等蛋白质专用模型,以及FoldSeek、BLAST等经典生物信息学工具,开展多维度对比评测。

原生蛋白设计:参考PDFBench评测标准,采用2025年Swiss-Prot数据库新收录的审核通过蛋白质功能关键词,设置从头设计(De Novo Design)任务,测试模型能否依据InterPro数据库的功能描述,直接生成符合约束条件的蛋白质序列。评测重点关注以下核心指标:pLDDT(折叠可信度,数值越高表明蛋白质结构越稳定)、Function Recovery(功能恢复率,数值越高表明设计蛋白质与预期功能的契合度越高)。

实验结果显示,在低同源蛋白质理解(General QA, EC/CATH 分类)和功能设计评估中展现出卓越的性能,书生AMix整体得分 (56.06) 优于现有的生物学专用模型及各大主流大语言模型

基于ProteinArena,书生AMix与前沿大模型、蛋白质领域专用模型以及经典工具展开了同台较量,评测结果显示:

书生AMix首次展现出跨越蛋白原生理解与设计模态鸿沟的基座级能力,在覆盖16类核心任务的通用蛋白质问答上准确率超越Claude Opus 4.7,位居榜单第一;

在最具挑战的细粒度酶功能分类EC L4任务中,书生AMix领先通用大模型,专用序列模型ESM2、ESM3与经典检索标杆BLAST,证明其已超越传统比对与记忆范式,捕捉到低同源蛋白背后的深层进化规律;

在蛋白质从头设计任务中,书生AMix实现了折叠可信度与功能恢复率的双重优化,打破了文本与蛋白质的跨模态推断瓶颈,通过构建统一表示空间实现模态自然对齐,为蛋白质研究领域的技术创新与产业应用提供“革命的工具”。

来源:上海人工智能实验室

编辑:朱文莹

↓分享

↓点赞

↓在看