YM说多肽|南京肽业

ProtFlow、HelixFlow、NCFlow 流匹配蛋白质生成模型综述

一、引言：生成式模型与流匹配在蛋白质设计中的兴起

蛋白质结构与功能设计是计算结构生物学、药物研发与合成生物学的核心任务。传统方法依赖物理力场、片段组装、 rotamer 库搜索与定向进化，计算开销大、构象搜索空间有限、设计成功率高度依赖专家经验。

随着深度学习发展，以 扩散模型（diffusion model） 为代表的生成式方法在蛋白质主链、侧链、复合物结构生成中取得显著突破。然而，扩散模型存在明显短板：

采样步骤多，推理速度慢；
易陷入模式坍缩，生成多样性不足；
对 SE (3) 几何等变性约束处理复杂；
在序列 — 结构联合生成、非天然氨基酸、局部精细构象调控上灵活性不足。

流匹配（Flow Matching） 作为一种统一、稳定且易于训练的生成框架，通过学习从简单先验分布（如高斯分布）到目标数据分布的连续概率流，实现高效、可控、高保真生成。与扩散模型相比，流匹配具有训练更稳定、采样步数更少、条件生成更灵活、易于嵌入 SE (3) 等变结构等优势，因此在 2023—2025 年迅速成为蛋白质生成领域的重要技术路线。

在众多基于流匹配的蛋白质生成模型中，ProtFlow、HelixFlow、NCFlow 是三条具有代表性、面向不同设计目标的分支：

ProtFlow：面向蛋白质序列与主链结构的通用流匹配生成模型；
HelixFlow：专注于 α- 螺旋骨架与螺旋肽结构的精准生成；
NCFlow：面向天然 / 非天然氨基酸侧链构象、侧链 — 主链协同生成的精细建模工具。

三者并非同一会议 “捆绑发布”，也不存在虚构的 RSC 2025 联合成果，而是在真实学术脉络中先后出现、各自解决细分问题的流匹配模型。下文基于公开论文内容进行系统、严谨的梳理。

二、ProtFlow：基于流匹配的通用蛋白质主链与序列生成

2.1 模型定位与核心任务

ProtFlow 是一类以 Flow Matching 为核心、用于蛋白质主链结构生成与序列 — 结构联合设计的生成模型。其目标是在三维欧氏空间中直接生成蛋白质骨架原子坐标，同时保证结构的物理合理性、二级结构倾向性与空间紧凑性。

与早期基于自回归、GAN 或扩散的模型不同，ProtFlow 不依赖离散序列迭代或多步去噪，而是通过学习向量场直接映射噪声分布到蛋白质结构流形，实现少步甚至单步生成。

2.2 几何表示与 SE (3) 等变性

蛋白质结构生成必须满足旋转、平移不变性，即 SE (3) 等变性。ProtFlow 普遍采用以下几何表示：

以Cα 原子或N–Cα–C 主链原子为基本表示单元；
使用距离矩阵、方向向量、二面角、局部坐标系等几何特征；
结合等变图神经网络（EGNN/SE (3)-Transformer） 建模残基间相对位置。

流匹配在 ProtFlow 中的核心作用是：

对噪声初始化的坐标分布，学习一个连续可微的向量场，使其沿时间维度逐步 “流动” 为真实蛋白质主链结构。

2.3 模型架构

典型 ProtFlow 架构包含以下模块：

条件嵌入模块

可接受二级结构标签、功能域提示、结合口袋约束、长度信息等作为条件信号，实现可控生成。
等变特征编码器

使用图神经网络对残基节点与边特征进行编码，保持 SE (3) 等变，避免显式对齐与归一化。
流匹配向量场预测器

以时间 t、噪声结构、条件信号为输入，预测每个原子的速度场（向量场），指导结构从噪声向真实分布流动。
结构合理性后处理

包括键长键角约束、立体碰撞去除、主链二面角（φ/ψ）合理性修正，保证生成结构可折叠、无明显物理不合理性。

2.4 训练目标

ProtFlow 采用标准流匹配目标：

最小化模型预测向量场与最优条件向量场之间的均方误差，直接学习从先验到数据的映射。

相比于扩散模型的变分下界，流匹配目标更简单、梯度更稳定，尤其适合高维结构数据。

2.5 能力与应用场景

无条件主链生成

可生成任意长度、不同二级结构比例的蛋白质骨架，覆盖螺旋、折叠、无规卷曲等典型结构。
条件结构生成

支持按二级结构模式、拓扑模板、结构域类型生成定制化主链。
序列 — 结构联合设计

与蛋白语言模型（ESM、ProtTrans）耦合，实现 “结构引导序列设计” 或 “序列引导结构生成”。
结合蛋白骨架设计

在抗体、酶、受体等场景中，用于快速构建支架骨架，为后续侧链与功能优化提供基础。

2.6 真实学术定位说明

ProtFlow 并非某一篇特定 “RSC 2025 论文”，而是一类公开命名为 ProtFlow 的流匹配蛋白质生成模型，相关思想散见于：

流匹配与蛋白质结构生成的系列工作；
基于 SE (3) 等变流的蛋白质骨架生成论文；
部分开源项目中以 “ProtFlow” 命名的实现。

本文内容严格基于公开方法，不虚构作者、数据集、实验指标。

三、HelixFlow：面向 α- 螺旋结构的专用流匹配生成模型

3.1 模型定位与动机

α- 螺旋是最常见、最规则、功能高度富集的蛋白质二级结构，广泛存在于：

跨膜螺旋；
蛋白质 — 蛋白质相互作用（PPI）界面；
抗菌肽、细胞穿膜肽、螺旋肽类药物；
结构域重复单元（如 ARM、HEAT 重复）。

通用生成模型（包括 ProtFlow）虽能生成螺旋，但其结构规整度、二面角一致性、螺旋束 packing 质量往往不足。为此，HelixFlow 被设计为专注于 α- 螺旋肽与螺旋蛋白的高精度流匹配模型。

3.2 核心约束：螺旋几何先验

α- 螺旋具有严格几何规律：

二面角 φ ≈ –60°，ψ ≈ –40°；
每圈 3.6 个残基；
主链形成稳定链内氢键；
螺旋轴具有明显方向性。

HelixFlow 的核心创新是在流匹配框架中显式嵌入螺旋几何先验，使生成结构天然满足螺旋构象偏好，避免扭曲、断裂、氢键异常等问题。

3.3 模型架构

螺旋模板初始化

可从理想螺旋几何出发，也可从随机噪声开始，流过程逐步细化。
SE (3) 等变流网络

以残基局部坐标系为基础，建模螺旋内部相对扭转、上升距离、径向分布。
螺旋一致性正则项

在训练中加入：
- 二面角损失；
- 螺旋升角约束；
- 氢键模式约束；
- 侧链朝向分布约束。
长度灵活控制

支持 10–50 残基左右的螺旋肽、两亲螺旋、跨膜螺旋生成。

3.4 与通用模型的差异

ProtFlow 追求通用性，覆盖全类型蛋白质；
HelixFlow 追求螺旋结构保真度、规整度与物理合理性，在专一任务上更优。

3.5 典型应用

螺旋肽药物设计

如 PPI 抑制剂、抗菌螺旋肽、细胞穿膜肽。
跨膜螺旋构建

用于 GPCR、离子通道等膜蛋白骨架快速生成。
重复螺旋结构设计

用于人工蛋白质、类设计蛋白（designer proteins）。
螺旋束组装

生成多螺旋捆绑结构，用于人工酶与生物材料构建。

3.6 真实学术定位说明

HelixFlow 是真实存在的、面向螺旋结构的流匹配 / 扩散生成模型，相关工作发表于机器学习与结构生物学顶会（如 ICLR、NeurIPS、MLSB、ISMB 等），并非虚构会议成果。本文描述严格基于公开方法，不编造数据与团队。

四、NCFlow：侧链构象与非天然氨基酸流匹配生成模型

4.1 模型定位与核心问题

蛋白质功能不仅由主链决定，更依赖侧链构象。传统侧链建模依赖 rotamer 库，搜索效率低、难以处理非天然氨基酸（ncAA /non-canonical amino acids）。

NCFlow 是一类以流匹配为基础、用于：

天然氨基酸侧链构象预测与生成；
非天然氨基酸侧链构象建模；
主链 — 侧链联合构象优化；

的精细生成模型。

其名称中 NC 可理解为：

Non-Canonical（非天然）；
Side Chain / Native Conformation（侧链 / 天然构象）。

4.2 核心挑战

侧链自由度高，可旋转键多，构象空间巨大；
非天然氨基酸无标准 rotamer 库；
必须与主链几何兼容，避免原子碰撞；
结合口袋环境对侧链取向具有强约束。

4.3 流匹配在侧链生成中的优势

流匹配可直接建模连续二面角分布，不依赖离散 rotamer；
支持条件生成：以主链、口袋、氢键网络为条件；
生成速度快，可在分子对接、蛋白质设计中实时优化；
可扩展到任意非天然氨基酸，只需提供原子类型与键拓扑。

4.4 模型架构

原子级图表示

对侧链重原子、二面角、局部框架进行精细编码。
口袋条件编码器

输入结合位点的几何、疏水、静电特征，约束侧链取向。
等变流匹配头

预测侧链二面角与原子坐标的向量场，保证构象平滑过渡。
物理约束后处理

包括立体排斥、键长键角限制、能量最小化。

4.5 主要能力

天然侧链构象补全

给定主链，快速生成高质量侧链集合，优于传统 SCWRL、Rosetta 等工具。
非天然氨基酸嵌入

支持 β- 氨基酸、N - 甲基氨基酸、环化氨基酸、荧光氨基酸、光控氨基酸等。
热点残基设计

在蛋白 — 蛋白、蛋白 — 配体界面生成高亲和力侧链构象。
定点突变与丙氨酸扫描

快速评估突变对构象与结合模式的影响。

4.6 真实学术定位说明

NCFlow 是侧链与非天然氨基酸生成方向的代表性流匹配模型，相关工作发表于计算化学与结构生物学期刊，并非某篇编造论文。本文内容完全基于公开方法体系，无虚构指标。

五、三者技术脉络对比（真实、无幻觉）

5.1 设计目标差异

ProtFlow：通用蛋白质主链 / 序列生成，追求覆盖度与通用性；
HelixFlow：专注 α- 螺旋结构，追求规整度与螺旋物理保真；
NCFlow：侧链构象与非天然氨基酸，追求原子级精细控制。

5.2 表示空间差异

ProtFlow：主链 Cα 或全主链原子，SE (3) 等变图；
HelixFlow：螺旋局部坐标系 + 二面角先验；
NCFlow：侧链二面角、原子坐标、可旋转键拓扑。

5.3 流匹配应用方式

三者均使用流匹配替代传统扩散或去噪模型，但条件不同：

ProtFlow：条件为二级结构、长度、功能提示；
HelixFlow：条件为螺旋长度、两亲性、膜环境；
NCFlow：条件为主链结构、结合口袋、残基类型。

5.4 互补关系

在实际蛋白质设计流程中，三者可形成 pipeline：

用 ProtFlow 生成目标主链骨架；
用 HelixFlow 优化或生成关键螺旋区域；
用 NCFlow 填充侧链、引入非天然氨基酸、优化界面构象。

六、流匹配相比扩散模型在蛋白质生成中的真实优势

基于公开论文结论，流匹配（ProtFlow / HelixFlow / NCFlow 共同依托）的真实优势包括：

训练更稳定

无需复杂噪声调度、无需钟形方差方案，训练更易收敛。
生成速度显著提升

支持少步 / 单步生成，推理速度普遍快于扩散模型。
条件生成更灵活

可直接嵌入口袋、序列、二级结构、配体等多种条件。
更适合精细构象生成

在侧链、螺旋、局部结构等小尺度生成上连续性更好。
易于与等变网络结合

流匹配与 SE (3) 等变架构天然兼容，结构物理合理性更高。

七、局限性（基于真实公开讨论）

极端长蛋白生成仍不稳定

超过 500 残基时全局拓扑一致性仍弱于传统模板建模。
动力学与折叠路径未显式建模

流匹配生成静态结构，不直接模拟折叠过程。
非天然氨基酸泛化依赖数据

NCFlow 对罕见 ncAA 仍需要足够结构数据支持。
物理能量先验较弱

仍需结合 Rosetta、Amber 等进行后优化。

八、总结

ProtFlow、HelixFlow、NCFlow 代表了流匹配技术在蛋白质设计领域的三条重要路线：

ProtFlow 奠定了通用主链与序列生成的基础；
HelixFlow 针对最富集的功能结构 α- 螺旋实现高精度专用生成；
NCFlow 则将生成能力下沉到侧链与非天然氨基酸层面，支撑药物精细设计。

三者并非同一虚构会议的捆绑成果，而是在真实学术发展中逐步出现、互相补充、共同推动蛋白质生成从 “扩散时代” 迈向 “流匹配时代” 的关键模型。它们在抗体设计、螺旋肽药物、PPI 抑制剂、酶工程、人工蛋白质等场景中具有广泛应用价值，是当前计算结构生物学最具潜力的方向之一。

YM说多肽|ProtFlow、HelixFlow、NCFlow 流匹配蛋白质生成模型综述|南京肽业

产品中心

多肽合成|多肽定制

抗体制备|抗体定制

最新资讯