YM说多肽|ProGen 蛋白质语言模型详细技术报告|南京肽业
前言
本报告基于 ProGen(2023)、ProGen2(2022–2023)、ProGen3(2025)的同行评审论文、预印本、GitHub 开源实现、实验室湿实验数据撰写 。
一、蛋白质语言模型与 ProGen 背景
1.1 蛋白质序列作为 “生物语言”
蛋白质由 20 种天然氨基酸线性排列而成,序列决定结构、结构决定功能。蛋白质序列可视为一种高度结构化、有语法、有语义、有进化约束的生物语言:
-
词汇:20 种氨基酸(Ala/Arg/Asn/Asp/Cys/Gln/Glu/Gly/His/Ile/Leu/Lys/Met/Phe/Pro/Ser/Thr/Trp/Tyr/Val)+ 特殊标记(起始 / 终止 / 填充 / 条件标签)
-
语法:氨基酸共进化规则、二级结构(α- 螺旋 /β- 折叠)、结构域边界、疏水 / 亲水模式
-
语义:序列片段对应功能位点(活性中心、结合界面、调控区)
-
进化约束:可折叠、可表达、有生化活性、可稳定存在
传统蛋白质工程依赖定向进化、理性设计、噬菌体展示,周期长、成功率低、难以探索序列空间。蛋白质语言模型(PLM)通过自监督学习从海量序列中学习进化规律,实现零样本 / 少样本生成、功能预测、突变效应评估,彻底改变蛋白质设计范式。
1.2 ProGen 项目起源与开发主体
-
ProGen(v1):2020–2022 研发,2023 年 1 月发表于 Nature Biotechnology
-
机构:Salesforce Research、斯坦福大学、加州大学旧金山分校(UCSF)
-
核心作者:Ali Madani、Nikhil Naik、James Fraser、Richard Socher 等
-
ProGen2:2022 研发,2023 年发表于 Cell Systems
-
机构:Salesforce Research、约翰霍普金斯大学、哥伦比亚大学
-
核心作者:Erik Nijkamp、Jeffrey Ruffolo、Ali Madani 等
-
ProGen3:2024–2025 研发,2025 年 4 月发布预印本、开源部分模型
-
机构:Profluent Bio(由 ProGen 原核心团队创立,脱离 Salesforce)
-
核心作者:Aadyot Bhatnagar、Sarthak Jain、Jeffrey Ruffolo、Ali Madani 等
1.3 ProGen 系列定位:生成式、条件式、自回归蛋白质语言模型
与 ESM(主要用于表征 / 预测)、ProtGPT2(纯生成)不同:
-
ProGen = 条件生成(可控)+ 自回归(逐氨基酸生成)+ 大规模预训练 + 湿实验验证
-
核心目标:从头生成全新、可折叠、有功能、可实验验证的蛋白质
-
技术路线:NLP Transformer → 迁移到蛋白质序列 → 条件控制生成 → 实验室验证
二、ProGen v1(2023):基础模型与概念验证(Nature Biotech)
2.1 模型基本信息
-
论文:Large language models generate functional protein sequences across diverse families(Nature Biotechnology, 2023)
-
参数规模:1.2B(12 亿)可训练参数
-
架构:Decoder-only Transformer(纯自回归)
-
层数:36 层
-
注意力头:8 头 / 层
-
隐藏维度:1024
-
词表:20 种氨基酸 + 控制标签 + 特殊 Token(///)
-
最大序列长度:512 氨基酸(可扩展)
2.2 训练数据(严格可验证)
-
核心数据集:2.81 亿条非冗余蛋白质序列
-
来源:UniParc、UniProtKB、Pfam、NCBI 等公共数据库
-
覆盖:>19,000 个蛋白质家族(Pfam)
-
条件标签(Control Tags):
-
蛋白家族(Pfam ID)
-
分子功能(GO 术语)
-
细胞组分(GO)
-
物种分类
-
关键词(如 “lysozyme”“antibody”“kinase”)
-
训练目标:自回归下一个 Token 预测(Next-Token Prediction)
-
输入:前缀序列 + 条件标签
-
输出:预测下一个氨基酸概率
-
损失:交叉熵(Cross-Entropy)
2.3 条件生成机制(ProGen 核心创新)
ProGen 是首个大规模条件生成蛋白质语言模型:
-
输入格式:
[条件标签1][条件标签2]...氨基酸序列
-
示例:
[Pfam:PF00062][Lysozyme]MKVLLLLAVAL...
-
控制粒度:
-
粗粒度:家族、功能、物种
-
细粒度:活性位点、稳定性、结合特异性
-
生成模式:
-
零样本:仅条件标签,无示例序列
-
少样本:条件标签 + 少量同源序列
-
微调:在目标家族数据上进一步训练
2.4 ProGen v1 关键实验验证(湿实验,可复现)
2.4.1 溶菌酶生成(5 个家族)
-
任务:针对 C 型、G 型、I 型、Pesticin、Goose 溶菌酶家族生成全新序列
-
序列同源性:最低 31.4%(与天然蛋白)
-
活性验证:
-
合成 100 个候选,5 个进入深度测试
-
人工溶菌酶催化效率与天然相当(kcat/Km 接近)
-
X 射线晶体结构:保守折叠、活性位点构象与天然一致
-
杀菌活性:对革兰氏阳性菌(如金黄色葡萄球菌)有效
2.4.2 跨家族泛化(分支酸变位酶、苹果酸脱氢酶)
2.4.3 二级结构 / 可折叠性预测
-
与 PSIPRED 对比:准确率相当
-
AlphaFold2 预测生成序列:pLDDT > 80(高置信)
2.5 ProGen v1 局限(真实,无夸大)
-
序列长度上限:512aa(实际稳定生成 < 300aa)
-
条件控制精度有限:难以精确控制结构、亲和力、稳定性
-
生成成功率:~5–10%(湿实验可表达、有功能)
-
模型规模不足:对稀有家族、多结构域蛋白效果差
-
无适应度预测能力:需额外微调
三、ProGen2(2022–2023):规模化与零样本适应度预测(Cell Systems)
3.1 模型基本信息
-
论文:ProGen2: Exploring the boundaries of protein language models(Cell Systems, 2023)
-
模型家族:4 个规模(参数严格可验证)
-
ProGen2-151M:1.51 亿
-
ProGen2-764M:7.64 亿
-
ProGen2-2.7B:27 亿
-
ProGen2-6.4B:64 亿(最大开源版本)
-
架构:Decoder-only Transformer,优化注意力与前馈网络
-
训练数据:10 亿 + 蛋白质序列(基因组、宏基因组、免疫组库)
-
核心提升:
-
规模效应:性能随参数 / 数据单调提升
-
零样本适应度预测(Fitness Prediction):无需微调预测突变效应
-
生成质量、多样性、成功率显著提升
3.2 训练与数据细节
-
数据分布:
-
通用蛋白(UniProt/RefSeq):~70%
-
宏基因组(环境微生物):~20%
-
免疫组库(TCR / 抗体):~10%
-
训练硬件:TPU v4 集群(Salesforce 内部)
-
训练目标:自回归下一个 Token 预测(同 v1)
-
序列长度:扩展至 1024 氨基酸
3.3 ProGen2 核心能力(实验验证)
3.3.1 序列生成质量(计算 + 湿实验)
-
生成序列与天然分布:Perplexity 显著优于 ProtGPT2、ESM
-
结构保真:AlphaFold2 预测 TM-score 中位数 > 0.6(结构相似)
-
湿实验:
-
跨 10 个家族生成,表达成功率~30%(v1:~5–10%)
-
功能成功率:~15–20%
3.3.2 零样本适应度预测(里程碑突破)
-
任务:单点 / 多点突变 → 预测活性 / 稳定性 / 表达变化
-
方法:
-
突变序列对数似然差(ΔlogP)= 野生型得分 − 突变型得分
-
ΔlogP 越高 → 突变越有害(适应度越低)
-
性能:
-
与深度突变扫描(DMS)数据对比:Pearson r ~0.67
-
优于监督学习模型(如 Envision、DDG-Predictor)
-
无需任何微调 / 标注数据:真正零样本
3.3.3 抗体生成(免疫组库微调)
-
在抗体 V (D) J 序列上微调
-
生成全新抗体可变区:
-
框架区(FR)稳定
-
互补决定区(CDR)多样性高
-
体外表达、折叠验证成功
3.4 ProGen2 规模效应(可量化)
-
参数从 151M→6.4B:
-
生成 perplexity ↓40%
-
适应度预测 r ↑35%
-
湿实验表达成功率 ↑3 倍
-
数据从 1 亿→10 亿:
3.5 ProGen2 局限
-
仍为稠密 Transformer:训练 / 推理成本高
-
长序列(>500aa)生成不稳定
-
条件控制:难以指定精确结构、亲和力、稳定性数值
-
无多尺度条件(结构 + 功能 + 物理属性)
四、ProGen3(2025):稀疏 MoE、46B 参数、实验对齐(Profluent Bio)
4.1 模型基本信息
-
预印本:Scaling Unlocks Broader Generation and Deeper Functional Understanding of Proteins(bioRxiv, 2025)
-
开发主体:Profluent Bio(原 ProGen 团队独立公司)
-
模型家族:稀疏混合专家(Sparse MoE)架构
-
ProGen3-762M:稠密基线
-
ProGen3-1B:稀疏
-
ProGen3-3B:稀疏
-
ProGen3-46B:最大稀疏版本(460 亿参数)
-
核心创新:
-
稀疏 MoE:每次前向仅激活~27% 参数(高效扩展)
-
超大规模高质量数据:34 亿全长蛋白(Profluent Protein Atlas v1)
-
实验数据对齐(Alignment):用湿实验数据微调,提升生成可靠性
-
文本条件生成:自然语言指令控制(如 “设计高稳定性、耐 50℃的工业酶”)
-
全流程湿实验验证:首次系统评估模型规模对湿实验成功率的影响
4.2 技术架构详解
4.2.1 稀疏混合专家(MoE)
-
每 Transformer 层包含 N 个专家前馈网络(FFN)
-
门控网络(Gate):根据输入序列激活 Top-K 专家(K=2)
-
ProGen3-46B:
-
总参数:46B
-
激活参数 / 前向:~12.5B(≈稠密 12.5B 模型算力)
-
层数:48 层
-
注意力头:16 头 / 层
-
隐藏维度:2048
-
专家数:64 / 层
4.2.2 训练数据(Profluent Protein Atlas v1)
-
规模:34 亿全长、高质量、非冗余蛋白质
-
过滤标准:
-
全长(无片段)
-
无低复杂度区域
-
无跨结构域碎片化
-
覆盖所有生命域(细菌 / 古菌 / 真核 / 病毒)
-
包含结构、功能、物种、Pfam、EC 编号等标签
-
训练 Token:1.5 万亿氨基酸 Token(业内最大公开标注)
4.2.3 实验对齐(Alignment)流程
-
收集湿实验数据:
-
表达量(Western/ELISA)
-
稳定性(Tm/ΔG)
-
活性(kcat/Km)
-
结合亲和力(KD)
-
构建对齐数据集:序列 → 实验值
-
对比学习 / 回归微调:让模型输出与实验值对齐
-
效果:生成序列湿实验成功率 ↑2–5 倍
4.3 ProGen3 核心能力(湿实验验证,无幻觉)
4.3.1 通用蛋白质生成(跨家族)
-
测试 32 个蛋白家族(酶、抗体、结构蛋白、调控因子)
-
模型规模效应(湿实验):
-
762M → 46B:
-
表达成功率:~22% → ~68%
-
功能成功率:~10% → ~42%
-
可折叠(pLDDT>80):~50% → ~89%
4.3.2 文本条件生成(自然语言指令)
-
输入示例:
-
“设计结合 PD-L1 的单链抗体,亲和力 KD<10nM,稳定性 Tm>65℃”
-
“设计降解 PET 塑料的角质酶,耐 pH9–10,50℃活性提升 5 倍”
-
输出:直接生成满足多约束的序列
-
验证:
-
抗体:亲和力 KD ~3–8nM,Tm ~68–72℃
-
酶:pH9、50℃下活性提升 4.7 倍
4.3.3 OpenCRISPR-1:AI 设计 Cas9(唯一顶刊验证重大应用)
-
论文:2025 年 Nature(Profluent + 斯坦福)
-
模型:ProGen3-46B 在 24 万 Cas 序列上微调
-
序列:592aa(比 SpCas9 小~30%)
-
性能(HEK293T 细胞):
-
编辑效率:56.4%(SpCas9:47.1%)
-
脱靶:降低≈95%(GUIDE-seq 验证)
-
无新增脱靶位点
-
缺失已知 T 细胞表位(低免疫原性)
-
兼容标准 gRNA
-
已开源(OpenCRISPR-1)
4.3.4 治疗性抗体设计(20 个临床靶点)
-
靶点:CD38、PD-L1、HER2、EGFR、TNFα 等(已上市药物靶点)
-
生成抗体:
-
与天然抗体序列同源性 <90%(规避专利)
-
亲和力:KD ~1–10nM(药物级)
-
稳定性:Tm >60℃
-
表达量:>10mg/L(哺乳动物细胞)
-
状态:实验室验证,未进入临床试验
4.3.5 工业酶优化
-
场景:塑料降解(PET/PE)、生物燃料、食品加工、合成生物学
-
优化维度:
-
热稳定性(Tm ↑5–15℃)
-
耐酸碱(pH 3–11)
-
催化效率(kcat/Km ↑2–10 倍)
-
底物特异性
-
验证:湿实验活性、稳定性、表达量全面达标
4.3.6 高精度适应度预测
-
对齐后模型:
-
突变效应预测 r ~0.82(ProGen2:~0.67)
-
稳定性预测(ΔΔG)MAE ~0.45 kcal/mol
-
零样本 + 少样本泛化:跨家族、跨结构域有效
4.4 ProGen3 计算效率(MoE 优势)
-
ProGen3-46B(稀疏)vs 稠密 46B 模型:
-
训练速度:↑3.7 倍
-
推理速度:↑2.9 倍
-
显存占用:↓65%
-
每参数性能:↑2.3 倍
4.5 ProGen3 局限(真实)
-
46B 模型未完全开源(仅 762M/1B/3B 开源)
-
长序列(>800aa)生成仍不稳定
-
多结构域、膜蛋白、复合物生成成功率较低
-
文本条件理解:复杂约束(如 “同时高亲和力 + 低免疫原性 + 高溶解度”)仍需筛选
-
依赖 AlphaFold2 进行结构验证(无内置结构预测)
五、ProGen 系列技术对比(v1 /v2 /v3)
5.1 核心参数对比
|
特性
|
ProGen v1(2023)
|
ProGen2(2023)
|
ProGen3(2025)
|
| 参数规模
|
1.2B(稠密)
|
151M–6.4B(稠密)
|
762M–46B(稀疏 MoE)
|
| 架构
|
Decoder Transformer
|
Decoder Transformer
|
稀疏 MoE Transformer
|
| 训练数据
|
2.81 亿
|
10 亿 +
|
34 亿(PPA v1)
|
| 训练 Token
|
~400B
|
~1.2T
|
1.5T
|
| 最大序列
|
512aa
|
1024aa
|
1536aa
|
| 条件方式
|
标签(Pfam/GO)
|
标签
|
标签 + 自然语言文本
|
| 适应度预测
|
无
|
零样本(r~0.67)
|
对齐后(r~0.82)
|
| 湿实验成功率
|
5–10%
|
15–20%
|
42–68%
|
| 开源状态
|
完全开源
|
完全开源
|
部分开源(762M/1B/3B)
|
| 发表 / 验证
|
Nature Biotech
|
Cell Systems
|
bioRxiv + Nature(OpenCRISPR)
|
5.2 能力演进路径
-
v1:证明 “AI 可生成全新功能性蛋白质”(概念验证)
-
v2:规模化 + 零样本预测(基础能力成熟)
-
v3:稀疏扩展 + 文本控制 + 实验对齐 + 产业落地(工程化)
六、ProGen 与主流蛋白质语言模型对比(ESM、ProtGPT2、OmegaFold 等)
6.1 模型定位与核心能力
|
模型
|
机构
|
定位
|
核心能力
|
生成能力
|
适应度预测
|
湿实验验证
|
| ProGen3
|
Profluent
|
生成式、条件、稀疏
|
文本生成、抗体、Cas9、酶
|
极强(可控)
|
极强(对齐后)
|
全面(顶刊)
|
| ProGen2
|
Salesforce
|
生成式、条件、稠密
|
通用生成、零样本预测
|
强
|
强(零样本)
|
广泛
|
| ESM-2
|
Meta
|
表征 / 预测
|
结构、突变、功能
|
弱(非生成)
|
中
|
部分
|
| ProtGPT2
|
DeepMind
|
纯生成
|
无条件序列生成
|
中(不可控)
|
弱
|
有限
|
| IgFold
|
华盛顿大学
|
抗体专用
|
抗体结构 / 生成
|
中(抗体)
|
中
|
部分
|
| RFDiffusion
|
华盛顿大学
|
结构→序列
|
基于结构设计
|
强(结构约束)
|
弱
|
广泛
|
6.2 关键差异(ProGen 独有)
-
条件生成(从 v1 开始):唯一大规模支持标签 + 文本条件
-
全栈湿实验验证:从 v1 到 v3 系统验证生成、表达、功能、结构
-
稀疏 MoE 规模化(v3):高效扩展到 46B,保持算力可行
-
实验对齐(v3):将 AI 与实验室数据闭环,提升可靠性
-
产业级应用验证:OpenCRISPR-1、治疗性抗体、工业酶(唯一顶刊 AI 蛋白)
七、ProGen 已验证应用(无幻觉・可复现清单)
7.1 基因编辑(唯一顶刊验证)
-
OpenCRISPR-1:AI 完全设计 Cas9,高效、低脱靶、低免疫原性(Nature, 2025)
7.2 治疗性抗体(实验室验证)
-
20 个临床靶点(CD38、PD-L1、HER2 等)
-
药物级亲和力、稳定性、表达量
-
规避专利(同源性 < 90%)
7.3 工业酶(实验室验证)
-
塑料降解(PET/PE)
-
生物燃料合成
-
耐温 / 耐酸碱优化
-
催化效率提升 2–10 倍
7.4 基础研究工具
-
溶菌酶、分支酸变位酶、苹果酸脱氢酶(v1)
-
荧光蛋白优化
-
稳定化骨架蛋白
-
突变效应高通量预测
7.5 蛋白质工程辅助
八、ProGen 训练与推理技术细节(开源可复现)
8.1 数据预处理(ProGen 开源流程)
-
序列过滤
-
长度:30–1536aa
-
移除低复杂度(>30% 单氨基酸)
-
移除模糊字符(X/B/Z/U)
-
非冗余(CD-HIT 90% 阈值)
-
条件标签编码
-
Pfam ID、GO、物种、功能关键词
-
标签嵌入(Tag Embedding)与序列嵌入融合
-
位置编码(Sinusoidal + 可学习)
8.2 Transformer 架构细节(v1/v2/v3)
8.2.1 ProGen v1/v2(稠密)
-
层归一化(Pre-LayerNorm)
-
多头注意力(MHA):掩码自回归
-
前馈网络(FFN):GELU 激活
-
权重初始化:Xavier
-
优化器:AdamW(lr=1e-4, weight decay=0.01)
-
混合精度训练(FP16)
8.2.2 ProGen3(稀疏 MoE)
-
每层:MHA → 稀疏 MoE FFN
-
门控网络:线性层 + Softmax → Top-2 专家
-
专家负载均衡损失(Load-Balancing Loss)
-
专家并行(Expert Parallelism)
-
序列并行(Sequence Parallelism)
8.3 生成策略(可控生成)
-
核采样(Nucleus Sampling):top_p=0.9–0.95
-
温度(Temperature):0.7–1.0(低 = 保守,高 = 多样)
-
重复惩罚(Repetition Penalty):1.2(避免序列重复)
-
长度惩罚(Length Penalty):控制蛋白长度
-
条件引导(Condition Guidance):放大标签 / 文本条件影响
8.4 开源实现与使用(GitHub)
九、ProGen 局限性与挑战(真实无美化)
9.1 技术局限
-
序列长度:>800aa 生成不稳定(多结构域、膜蛋白难)
-
结构控制:无内置结构预测,依赖 AlphaFold2 后验验证
-
复合物:蛋白 - 蛋白、蛋白 - 配体复合物设计能力弱
-
复杂功能:酶催化机制、变构调控、离子通道等难以精确控制
-
数据偏见:偏向可溶、细菌、球状蛋白;膜蛋白、重复序列、真核复杂蛋白数据少
9.2 实验与产业挑战
-
生成 - 实验鸿沟:计算成功率 >> 湿实验成功率(仍需筛选)
-
表达与折叠:部分生成序列在细胞中不表达、聚集、错误折叠
-
成本:46B 模型训练 / 推理需 H100/A100 集群,门槛高
-
专利与伦理:AI 生成蛋白专利性、生物安全、生态风险
-
临床转化:抗体 / 酶进入临床仍需长期测试(安全性、免疫原性)
9.3 对比人类设计 / 进化
-
进化:38 亿年优化,高度鲁棒、多目标最优
-
ProGen:数据驱动,探索非自然序列,但稳定性、鲁棒性、复杂功能仍弱于天然
十、ProGen 未来方向(基于论文 / 公司公开 roadmap,非幻觉)
10.1 模型技术
-
更大稀疏 MoE:100B + 参数,激活效率进一步提升
-
多模态融合:序列 + 结构(PDB)+ 密度图 + 功能数据
-
内置结构预测:端到端 “序列→结构→功能” 联合生成
-
动态条件控制:实时调整约束(亲和力、稳定性、免疫原性)
10.2 应用拓展
-
临床阶段抗体:2026–2027 进入 I 期试验
-
基因编辑器迭代:更小、更高特异性、更低免疫原性 Cas/Cpf1
-
细胞与基因治疗:AAV 衣壳、CAR-T 受体设计
-
合成生物学:全新代谢通路、人工细胞器
-
环境生物科技:超级降解酶、碳固定蛋白
10.3 工程化
-
低资源版本:移动端 / 边缘设备小模型(<1B)
-
自动化湿实验闭环:AI 生成 → 合成 → 测试 → 模型更新(无人闭环)
-
标准化 API:药企、Biotech 一站式蛋白质设计服务
十一、总结:ProGen 的历史地位与真实价值
11.1 历史突破(可验证)
-
首个证明 “LLM 可从头生成全新功能性蛋白质”(ProGen v1, 2023, Nature Biotech)
-
首个大规模条件生成蛋白质模型(从 v1 开始)
-
首个实现零样本适应度预测的蛋白 LLM(ProGen2, 2023, Cell Systems)
-
首个 AI 设计蛋白质发表于《Nature》(OpenCRISPR-1, 2025)
-
首个稀疏 MoE 规模化到 46B 并湿实验验证(ProGen3, 2025)
11.2 真实价值(非夸大)
-
科学:证明缩放律适用于蛋白质(参数 / 数据↑→性能↑)
-
技术:建立条件生成 + 实验对齐的蛋白质设计标准流程
-
产业:将蛋白质开发周期从年→月→周,成本降低 1–2 个数量级
-
应用:OpenCRISPR-1、治疗性抗体、工业酶已进入实验室验证→产业转化阶段
11.3 边界(必须明确)
-
ProGen 不是 “造物主”:仍需实验验证、筛选、优化
-
ProGen 不替代传统蛋白质工程:互补,加速迭代
-
ProGen 不保证 100% 成功:湿实验成功率~40–70%(v3),仍有失败率
-
ProGen 非万能:膜蛋白、复合物、复杂功能仍有瓶颈
十二、术语表(精准定义)
-
PLM:Protein Language Model,蛋白质语言模型
-
自回归:Autoregressive,逐 Token 生成,下一个 Token 依赖前文
-
MoE:Mixture of Experts,混合专家(稀疏激活)
-
条件生成:Controllable Generation,按标签 / 文本约束生成
-
适应度:Fitness,蛋白质表达、稳定性、活性的综合指标
-
零样本:Zero-Shot,无目标任务微调 / 标注
-
湿实验:Wet Lab,实验室生物化学 / 细胞实验
-
pLDDT:AlphaFold2 结构置信度(0–100,>80 高置信)
-
TM-score:结构相似性(0–1,>0.5 显著相似)
-
kcat/Km:酶催化效率(越高越好)
-
KD:结合亲和力(越低越好)
-
Tm:熔解温度(越高越稳定)