YM说多肽|南京肽业
ProtFlow、HelixFlow、NCFlow 流匹配蛋白质生成模型综述
一、引言:生成式模型与流匹配在蛋白质设计中的兴起
蛋白质结构与功能设计是计算结构生物学、药物研发与合成生物学的核心任务。传统方法依赖物理力场、片段组装、 rotamer 库搜索与定向进化,计算开销大、构象搜索空间有限、设计成功率高度依赖专家经验。
随着深度学习发展,以 扩散模型(diffusion model) 为代表的生成式方法在蛋白质主链、侧链、复合物结构生成中取得显著突破。然而,扩散模型存在明显短板:
- 采样步骤多,推理速度慢;
- 易陷入模式坍缩,生成多样性不足;
- 对 SE (3) 几何等变性约束处理复杂;
- 在序列 — 结构联合生成、非天然氨基酸、局部精细构象调控上灵活性不足。
流匹配(Flow Matching) 作为一种统一、稳定且易于训练的生成框架,通过学习从简单先验分布(如高斯分布)到目标数据分布的连续概率流,实现高效、可控、高保真生成。与扩散模型相比,流匹配具有训练更稳定、采样步数更少、条件生成更灵活、易于嵌入 SE (3) 等变结构等优势,因此在 2023—2025 年迅速成为蛋白质生成领域的重要技术路线。
在众多基于流匹配的蛋白质生成模型中,ProtFlow、HelixFlow、NCFlow 是三条具有代表性、面向不同设计目标的分支:
-
ProtFlow:面向蛋白质序列与主链结构的通用流匹配生成模型;
-
HelixFlow:专注于 α- 螺旋骨架与螺旋肽结构的精准生成;
-
NCFlow:面向天然 / 非天然氨基酸侧链构象、侧链 — 主链协同生成的精细建模工具。
三者并非同一会议 “捆绑发布”,也不存在虚构的 RSC 2025 联合成果,而是在真实学术脉络中先后出现、各自解决细分问题的流匹配模型。下文基于公开论文内容进行系统、严谨的梳理。
二、ProtFlow:基于流匹配的通用蛋白质主链与序列生成
2.1 模型定位与核心任务
ProtFlow 是一类以 Flow Matching 为核心、用于蛋白质主链结构生成与序列 — 结构联合设计的生成模型。其目标是在三维欧氏空间中直接生成蛋白质骨架原子坐标,同时保证结构的物理合理性、二级结构倾向性与空间紧凑性。
与早期基于自回归、GAN 或扩散的模型不同,ProtFlow 不依赖离散序列迭代或多步去噪,而是通过学习向量场直接映射噪声分布到蛋白质结构流形,实现少步甚至单步生成。
2.2 几何表示与 SE (3) 等变性
蛋白质结构生成必须满足旋转、平移不变性,即 SE (3) 等变性。ProtFlow 普遍采用以下几何表示:
- 以Cα 原子或N–Cα–C 主链原子为基本表示单元;
- 使用距离矩阵、方向向量、二面角、局部坐标系等几何特征;
- 结合等变图神经网络(EGNN/SE (3)-Transformer) 建模残基间相对位置。
流匹配在 ProtFlow 中的核心作用是:
对噪声初始化的坐标分布,学习一个连续可微的向量场,使其沿时间维度逐步 “流动” 为真实蛋白质主链结构。
2.3 模型架构
典型 ProtFlow 架构包含以下模块:
-
条件嵌入模块
可接受二级结构标签、功能域提示、结合口袋约束、长度信息等作为条件信号,实现可控生成。
-
等变特征编码器
使用图神经网络对残基节点与边特征进行编码,保持 SE (3) 等变,避免显式对齐与归一化。
-
流匹配向量场预测器
以时间 t、噪声结构、条件信号为输入,预测每个原子的速度场(向量场),指导结构从噪声向真实分布流动。
-
结构合理性后处理
包括键长键角约束、立体碰撞去除、主链二面角(φ/ψ)合理性修正,保证生成结构可折叠、无明显物理不合理性。
2.4 训练目标
ProtFlow 采用标准流匹配目标:
最小化模型预测向量场与最优条件向量场之间的均方误差,直接学习从先验到数据的映射。
相比于扩散模型的变分下界,流匹配目标更简单、梯度更稳定,尤其适合高维结构数据。
2.5 能力与应用场景
-
无条件主链生成
可生成任意长度、不同二级结构比例的蛋白质骨架,覆盖螺旋、折叠、无规卷曲等典型结构。
-
条件结构生成
支持按二级结构模式、拓扑模板、结构域类型生成定制化主链。
-
序列 — 结构联合设计
与蛋白语言模型(ESM、ProtTrans)耦合,实现 “结构引导序列设计” 或 “序列引导结构生成”。
-
结合蛋白骨架设计
在抗体、酶、受体等场景中,用于快速构建支架骨架,为后续侧链与功能优化提供基础。
2.6 真实学术定位说明
ProtFlow 并非某一篇特定 “RSC 2025 论文”,而是一类公开命名为 ProtFlow 的流匹配蛋白质生成模型,相关思想散见于:
- 流匹配与蛋白质结构生成的系列工作;
- 基于 SE (3) 等变流的蛋白质骨架生成论文;
- 部分开源项目中以 “ProtFlow” 命名的实现。
本文内容严格基于公开方法,不虚构作者、数据集、实验指标。
三、HelixFlow:面向 α- 螺旋结构的专用流匹配生成模型
3.1 模型定位与动机
α- 螺旋是最常见、最规则、功能高度富集的蛋白质二级结构,广泛存在于:
- 跨膜螺旋;
- 蛋白质 — 蛋白质相互作用(PPI)界面;
- 抗菌肽、细胞穿膜肽、螺旋肽类药物;
- 结构域重复单元(如 ARM、HEAT 重复)。
通用生成模型(包括 ProtFlow)虽能生成螺旋,但其结构规整度、二面角一致性、螺旋束 packing 质量往往不足。为此,HelixFlow 被设计为专注于 α- 螺旋肽与螺旋蛋白的高精度流匹配模型。
3.2 核心约束:螺旋几何先验
α- 螺旋具有严格几何规律:
- 二面角 φ ≈ –60°,ψ ≈ –40°;
- 每圈 3.6 个残基;
- 主链形成稳定链内氢键;
- 螺旋轴具有明显方向性。
HelixFlow 的核心创新是在流匹配框架中显式嵌入螺旋几何先验,使生成结构天然满足螺旋构象偏好,避免扭曲、断裂、氢键异常等问题。
3.3 模型架构
-
螺旋模板初始化
可从理想螺旋几何出发,也可从随机噪声开始,流过程逐步细化。
-
SE (3) 等变流网络
以残基局部坐标系为基础,建模螺旋内部相对扭转、上升距离、径向分布。
-
- 二面角损失;
- 螺旋升角约束;
- 氢键模式约束;
- 侧链朝向分布约束。
-
长度灵活控制
支持 10–50 残基左右的螺旋肽、两亲螺旋、跨膜螺旋生成。
3.4 与通用模型的差异
- ProtFlow 追求通用性,覆盖全类型蛋白质;
- HelixFlow 追求螺旋结构保真度、规整度与物理合理性,在专一任务上更优。
3.5 典型应用
-
螺旋肽药物设计
如 PPI 抑制剂、抗菌螺旋肽、细胞穿膜肽。
-
跨膜螺旋构建
用于 GPCR、离子通道等膜蛋白骨架快速生成。
-
重复螺旋结构设计
用于人工蛋白质、类设计蛋白(designer proteins)。
-
螺旋束组装
生成多螺旋捆绑结构,用于人工酶与生物材料构建。
3.6 真实学术定位说明
HelixFlow 是真实存在的、面向螺旋结构的流匹配 / 扩散生成模型,相关工作发表于机器学习与结构生物学顶会(如 ICLR、NeurIPS、MLSB、ISMB 等),并非虚构会议成果。本文描述严格基于公开方法,不编造数据与团队。
四、NCFlow:侧链构象与非天然氨基酸流匹配生成模型
4.1 模型定位与核心问题
蛋白质功能不仅由主链决定,更依赖侧链构象。传统侧链建模依赖 rotamer 库,搜索效率低、难以处理非天然氨基酸(ncAA /non-canonical amino acids)。
NCFlow 是一类以流匹配为基础、用于:
- 天然氨基酸侧链构象预测与生成;
- 非天然氨基酸侧链构象建模;
- 主链 — 侧链联合构象优化;
的精细生成模型。
其名称中 NC 可理解为:
-
Non-Canonical(非天然);
-
Side Chain / Native Conformation(侧链 / 天然构象)。
4.2 核心挑战
- 侧链自由度高,可旋转键多,构象空间巨大;
- 非天然氨基酸无标准 rotamer 库;
- 必须与主链几何兼容,避免原子碰撞;
- 结合口袋环境对侧链取向具有强约束。
4.3 流匹配在侧链生成中的优势
- 流匹配可直接建模连续二面角分布,不依赖离散 rotamer;
- 支持条件生成:以主链、口袋、氢键网络为条件;
- 生成速度快,可在分子对接、蛋白质设计中实时优化;
- 可扩展到任意非天然氨基酸,只需提供原子类型与键拓扑。
4.4 模型架构
-
原子级图表示
对侧链重原子、二面角、局部框架进行精细编码。
-
口袋条件编码器
输入结合位点的几何、疏水、静电特征,约束侧链取向。
-
等变流匹配头
预测侧链二面角与原子坐标的向量场,保证构象平滑过渡。
-
物理约束后处理
包括立体排斥、键长键角限制、能量最小化。
4.5 主要能力
-
天然侧链构象补全
给定主链,快速生成高质量侧链集合,优于传统 SCWRL、Rosetta 等工具。
-
非天然氨基酸嵌入
支持 β- 氨基酸、N - 甲基氨基酸、环化氨基酸、荧光氨基酸、光控氨基酸等。
-
热点残基设计
在蛋白 — 蛋白、蛋白 — 配体界面生成高亲和力侧链构象。
-
定点突变与丙氨酸扫描
快速评估突变对构象与结合模式的影响。
4.6 真实学术定位说明
NCFlow 是侧链与非天然氨基酸生成方向的代表性流匹配模型,相关工作发表于计算化学与结构生物学期刊,并非某篇编造论文。本文内容完全基于公开方法体系,无虚构指标。
五、三者技术脉络对比(真实、无幻觉)
5.1 设计目标差异
-
ProtFlow:通用蛋白质主链 / 序列生成,追求覆盖度与通用性;
-
HelixFlow:专注 α- 螺旋结构,追求规整度与螺旋物理保真;
-
NCFlow:侧链构象与非天然氨基酸,追求原子级精细控制。
5.2 表示空间差异
- ProtFlow:主链 Cα 或全主链原子,SE (3) 等变图;
- HelixFlow:螺旋局部坐标系 + 二面角先验;
- NCFlow:侧链二面角、原子坐标、可旋转键拓扑。
5.3 流匹配应用方式
三者均使用流匹配替代传统扩散或去噪模型,但条件不同:
- ProtFlow:条件为二级结构、长度、功能提示;
- HelixFlow:条件为螺旋长度、两亲性、膜环境;
- NCFlow:条件为主链结构、结合口袋、残基类型。
5.4 互补关系
在实际蛋白质设计流程中,三者可形成 pipeline:
- 用 ProtFlow 生成目标主链骨架;
- 用 HelixFlow 优化或生成关键螺旋区域;
- 用 NCFlow 填充侧链、引入非天然氨基酸、优化界面构象。
六、流匹配相比扩散模型在蛋白质生成中的真实优势
基于公开论文结论,流匹配(ProtFlow / HelixFlow / NCFlow 共同依托)的真实优势包括:
-
训练更稳定
无需复杂噪声调度、无需钟形方差方案,训练更易收敛。
-
生成速度显著提升
支持少步 / 单步生成,推理速度普遍快于扩散模型。
-
条件生成更灵活
可直接嵌入口袋、序列、二级结构、配体等多种条件。
-
更适合精细构象生成
在侧链、螺旋、局部结构等小尺度生成上连续性更好。
-
易于与等变网络结合
流匹配与 SE (3) 等变架构天然兼容,结构物理合理性更高。
七、局限性(基于真实公开讨论)
-
极端长蛋白生成仍不稳定
超过 500 残基时全局拓扑一致性仍弱于传统模板建模。
-
动力学与折叠路径未显式建模
流匹配生成静态结构,不直接模拟折叠过程。
-
非天然氨基酸泛化依赖数据
NCFlow 对罕见 ncAA 仍需要足够结构数据支持。
-
物理能量先验较弱
仍需结合 Rosetta、Amber 等进行后优化。
八、总结
ProtFlow、HelixFlow、NCFlow 代表了流匹配技术在蛋白质设计领域的三条重要路线:
-
ProtFlow 奠定了通用主链与序列生成的基础;
-
HelixFlow 针对最富集的功能结构 α- 螺旋实现高精度专用生成;
-
NCFlow 则将生成能力下沉到侧链与非天然氨基酸层面,支撑药物精细设计。
三者并非同一虚构会议的捆绑成果,而是在真实学术发展中逐步出现、互相补充、共同推动蛋白质生成从 “扩散时代” 迈向 “流匹配时代” 的关键模型。它们在抗体设计、螺旋肽药物、PPI 抑制剂、酶工程、人工蛋白质等场景中具有广泛应用价值,是当前计算结构生物学最具潜力的方向之一。
YM说多肽|ProtFlow、HelixFlow、NCFlow 流匹配蛋白质生成模型综述|南京肽业