咨询热线:025-58361106-801 

 Email: info@njpeptide.com

中文      English

总机:025-58361106-801

传真:025-58361107-806

Email:info@njpeptide.com

地址:南京市化学工业园区方水路158号三楼


最新资讯

您当前的位置:首页 > 关于我们 > 最新资讯


YM说多肽|智能多肽|解码自然界的暗物质:AI挖掘天然多肽宝库|南京肽业


解码自然界的暗物质:AI挖掘天然多肽宝库


摘要

天然多肽作为生命体化学防御、信号转导和资源竞争的关键分子工具,构成了一个化学多样性极其丰富的天然产物库。然而,受制于微生物不可培养性、表达丰度低、检测灵敏度不足以及序列-功能关联性缺失等传统瓶颈,目前已发现的天然多肽数量仅占生物合成潜力的极小部分,成为生物学与药物化学领域的“暗物质”。近年来,以深度学习和蛋白质语言模型为代表的人工智能技术,在基因组挖掘、质谱从头测序、三维结构预测、功能虚拟筛选以及生成式分子设计等方面展现出革命性能力。本文系统阐述天然多肽的多样性来源、传统挖掘方法的核心局限,解析深度学习模型在多肽组学、生物合成基因簇识别、抗菌肽及其他功能多肽预测中的基本原理与应用范式,重点介绍若干已验证的经典案例,并对当前面临的数据偏差、可解释性、湿实验验证瓶颈以及未来与合成生物学、自动化平台整合的发展方向进行深入讨论。旨在为计算生物学、药物化学及合成生物学领域的科研人员提供一份严谨、前沿且可操作的综述。

关键词:天然多肽;暗物质;人工智能;深度学习;基因组挖掘;抗菌肽;从头测序


第一章 绪论:被封印的化学宇宙

1.1 多肽的定义与分类

多肽是指由2至50个L-α-氨基酸(也可包含D-型氨基酸、非蛋白氨基酸及多种修饰残基)通过肽键线性或环状连接构成的分子。依照生物合成途径的不同,天然多肽可划分为两大类别。

1.1.1 核糖体合成与翻译后修饰多肽(RiPPs)

RiPPs由基因编码的前体肽经核糖体合成,随后经系列翻译后修饰酶作用,形成结构多样的成熟分子。常见亚类包括:

  • 羊毛硫肽:含硫醚键(如乳链菌肽,nisin)。

  • 套索肽:N端与侧链形成酰胺环,尾穿环而过(如microcin J25)。

  • 蓝菌肽:源于蓝细菌的含杂环的多肽。

  • 硫肽:富含噻唑/噁唑杂环(如硫链丝菌素)。

  • 线性唑啉含多肽:如部分链霉菌产物。

  • RaS-RiPPs:经自由基S-腺苷甲硫氨酸酶催化形成大环。

RiPPs的优势在于基因簇相对紧凑,前体序列可作为基因组挖掘的标签。

1.1.2 非核糖体多肽(NRPs)

由非核糖体多肽合成酶(NRPS)以模块化方式组装而成,每个模块负责掺入一个单体(可为非蛋白氨基酸、脂肪酸或其他羧酸)。经典代表:

  • 青霉素/头孢菌素(寡肽衍生物,由ACV三肽修饰)。

  • 万古霉素(七肽骨架,含氯代和糖基修饰)。

  • 环孢素(环十一肽,免疫抑制剂)。

  • 短杆菌肽S多粘菌素E

NRPS产生的多肽常含D-型氨基酸、N-甲基化、噁唑啉/噻唑啉环等,赋予其高代谢稳定性和强生物活性。

1.1.3 其他来源

  • 动物毒液肽:蛇毒、蝎毒、芋螺毒素中的大量二硫键密集多肽,作用于离子通道和受体。

  • 植物防御素:如γ-硫素、橡胶蛋白等。

  • 海洋多肽:海绵、海鞘、蓝细菌产生的didemnin、dolastatin等。

1.2 功能全景:从抗生素到信号枢纽

天然多肽的功能涵盖几乎所有生命过程与生态互动。以下列举主要功能类别及代表性分子。

功能类别 代表分子 来源 作用机制
抗菌(革兰阳性菌) 万古霉素 放线菌 结合D-Ala-D-Ala,抑制细胞壁合成
抗菌(革兰阴性菌) 多粘菌素E 多粘芽孢杆菌 破坏外膜脂多糖
抗真菌 棘白菌素B 真菌 抑制β-1,3-葡聚糖合成酶
抗病毒 恩夫韦肽 合成(源于HIV gp41序列) 抑制病毒融合(虽为合成,但启发于天然)
离子通道阻断 ω-芋螺毒素MVIIA 芋螺 阻断N型钙通道(镇痛)
免疫抑制 环孢素 真菌 结合亲环蛋白,抑制钙调磷酸酶
激素 催产素、加压素 动物 结合G蛋白偶联受体
酶抑制剂 亮肽素 链霉菌 抑制丝氨酸/半胱氨酸蛋白酶
铁载体 肠杆菌素 大肠杆菌 螯合铁离子
毒素 α-鹅膏蕈碱 毒蘑菇 抑制RNA聚合酶II

从上表可见,多肽涵盖从简单线形到复杂环状大环内酯的广阔化学空间,且许多已成为临床药物或药物先导。

1.3 “暗物质”隐喻的深层含义

宇宙中的暗物质不发光、不吸收电磁波,仅通过引力效应被间接推测。类似地,天然多肽“暗物质”指代:

  1. 遗传潜力未被表达:大量微生物基因组的生物合成基因簇(BGC)在标准培养条件下沉默,其产物从未被分离。

  2. 低丰度与时空特异性:某些多肽仅在特定环境信号(种群密度、营养胁迫、共培养竞争)下痕量表达,常规提取无法富集。

  3. 分析技术的盲区:复杂生物基质中,低丰度多肽被高丰度蛋白掩盖;传统数据库依赖性质谱搜索无法鉴定完全新颖序列。

  4. 序列-结构-功能鸿沟:即使通过基因组预测得到序列,其三维折叠、修饰状态、靶点和活性无从得知。

据估算,仅细菌一个界的非核糖体多肽合成酶基因簇数量即达百万级别,而已鉴定的NRPs不足万余。RiPPs的未知数量更加巨大。因此,天然多肽的“暗物质”可能占全部潜力的99%以上。照亮这一暗物质世界,成为天然产物研究的核心前沿。


第二章 传统挖掘方法:辉煌与天花板

2.1 经典活性导向分离

工作流程:采集环境样本(土壤、海绵等)→ 微生物分离培养 → 发酵提取 → 粗提物生物活性筛选(抑菌圈、细胞毒等) → 活性引导的色谱分离 → 纯化 → 质谱/核磁结构鉴定。

标志性成就

  • 1940年代,青霉素、链霉素的发现开启了抗生素黄金时代。

  • 1950–1970年,万古霉素、多粘菌素、放线菌素D、博来霉素等进入临床。

  • 环孢素(1972年发现)成为移植抗排斥的里程碑。

局限性

  • 可培养性障碍:标准培养基只能培养0.1%–1%的环境微生物,99%以上的“微生物暗物质”无法获得。

  • 重复发现率高:土壤中分离的链霉菌多产生已知链霉菌色素、放线菌素等,新分子发现率逐年下降。

  • 低丰度遗漏:如果BGC在发酵条件下不表达,活性筛选完全失效;如果产物活性微弱或非靶点活性,同样被漏掉。

  • 时间和人力成本:从样品到新化合物平均需要数月到数年,且成功率低于1/5000。

2.2 基因组挖掘:从DNA到分子的计算机辅助

随着测序成本断崖式下降,基因组挖掘应运而生。核心思路:扫描微生物基因组DNA,使用生物信息学工具识别编码次级代谢产物的BGC,再通过基因敲除/异源表达等手段获得产物。

主流工具

  • antiSMASH:最广泛使用的BGC识别与注释平台。通过比对已知BGC的隐马尔可夫模型(HMM)轮廓,识别NRPS、PKS、RiPPs、萜类等基因簇。

  • PRISM:除识别外,还能预测NRPS和PKS的产物化学结构。

  • NRPSpredictor / PKS/NRPS分析:基于保守基序预测腺苷酸化结构域的底物特异性。

成功案例

  • 从沉默基因簇中发现了新型铁载体(如coelichelin)、羊毛硫肽(如microsporicidin)等。

  • 通过基因组挖掘在链霉菌中发现了新一类套索肽(lasso peptide)。

主要局限

  • 预测准确度有限:NRPS腺苷酸化结构域底物预测准确率约80%,且难以区分L/D构型和环化模式。

  • RiPPs修饰预测能力弱:目前的工具仅能预测有限的修饰类型(如羊毛硫氨酸、套索肽环化),大量新型修饰无对应模型。

  • 无法预测表达调控:预测到的BGC是否真实转录,是否需要特定诱导条件,无法从序列直接获知。

  • 假阳性与假阴性:部分伪基因簇被误判为BGC;真实但进化新颖的BGC可能因与已知簇相似度过低而被遗漏。

2.3 质谱驱动的多肽组学

多肽组学是蛋白质组学的延伸,专门分析生物样品中的内源多肽。典型实验流程:样品制备(去除大蛋白、富集小分子量部分)→ 液相色谱-串联质谱(LC-MS/MS) → 数据库搜索(如MaxQuant、PEAKS、MS-GF+)→ 多肽鉴定与定量。

贡献:成功从细胞、组织、体液中鉴定数千种内源多肽,包括许多激素原加工产物和信号肽。

无法绕过的瓶颈

  • 数据库依赖:传统搜索引擎需要预先提供蛋白质序列数据库(由基因组注释生成)。对完全新颖、基因组未注释的生物(或宏基因组中未组装的序列),数据库搜索无法鉴定。

  • 翻译后修饰鉴定困难:修饰导致谱图中b/y离子产生质量偏移,搜索引擎需要枚举所有可能修饰位点,计算量巨大且假阳性高。

  • 动态范围挑战:多肽丰度横跨6-10个数量级,高丰度多肽抑制低丰度新奇多肽的离子化与检测。

  • 谱图噪音与未知碎片:缺乏数据库匹配的谱图(“orphan spectra”)约占三分之一,其中含大量新序列信息但被丢弃。

2.4 传统方法的共性困境

综上,传统路径面临四大共性约束:

  1. 培养依赖:微生物分离培养是活性筛选的前置条件,99%以上的微生物被排除在外。

  2. 低通量:从发酵到结构解析周期长,不适合大规模探索。

  3. 偏向性:活性筛选模型、色谱条件、质谱参数均会造成偏好,倾向于捕获已知或性质相似的分子。

  4. 序列-功能鸿沟:即使获得新序列,确定三维结构和生物功能还需大量实验。

这些瓶颈呼唤新的技术范式。人工智能,特别是深度学习,正是在这一背景下进入天然多肽发现的前沿舞台。


第三章 人工智能:照亮暗物质的新物理

3.1 机器学习与深度学习核心概念

机器学习:通过数据自动构建映射规则,无需手工编程。用于天然多肽的关键任务包括分类(有无抗菌活性)、回归(最小抑菌浓度MIC值)、聚类(发现新家族)、生成(创造新序列)等。

深度学习:使用多层神经网络自动学习数据的层次化特征。相比于传统机器学习依赖人工设计的特征(如氨基酸频率、疏水性矩),深度学习可直接从原始序列或谱图数据中提取抽象特征。

常用架构

  • 卷积神经网络(CNN):通过卷积核提取局部模式,适合捕捉多肽序列中的保守基序(如环化位点周围残基)。

  • 循环神经网络(RNN)及其变体(LSTM、GRU):处理序列依赖关系,适用于多肽序列建模和从头测序中逐氨基酸生成。

  • Transformer与注意力机制:通过自注意力捕获序列中任意两个位置的关系,摆脱RNN的串行限制。蛋白质语言模型(如ProtBERT、ESM-2)均基于Transformer。

  • 图神经网络(GNN):将多肽表示为残基图或原子图,用于预测三维结构、结合亲和力。

  • 生成对抗网络(GAN)变分自编码器(VAE):用于生成新的多肽序列,探索未知化学空间。

3.2 AI赋能天然多肽挖掘的三大范式

范式一:序列→性质直接预测

训练一个神经网络,输入为氨基酸序列(以one-hot编码或嵌入表示),输出为预测的活性分数(抗菌、毒性、稳定性)。这使得可以从海量候选序列中快速过滤出有希望者,无需任何实验。

范式二:基因组→产物直接推断

不再依赖规则库和HMM,而是使用深度神经网络直接从DNA序列中识别BGC边界、预测NRPS底物、预测RiPPs的成熟产物序列及修饰位点。

范式三:质谱谱图→全新肽序列(de novo)

深度学习方法(如DeepNovo)直接从MS/MS谱图中逐个预测氨基酸,不依赖任何基因组数据库。这让从未培养的暗生物以及宏基因组样品中的全新多肽得以被直接鉴定。

3.3 范式转变:从“实验先行”到“计算先行”

传统模式:
采样 → 培养 → 发酵 → 分离 → 活性测试 → 结构鉴定 → (若失败则重启)

AI驱动模式:
(路径A) 公共/测序基因组 → AI预测BGC与产物 → 化学合成或异源表达 → 靶向活性验证
(路径B) 环境样本质谱 → AI从头测序 → 合成候选肽 → 活性验证

计算前置大幅压缩了迭代周期。例如,从数万个基因组中预测到的候选抗菌肽可在几周内完成虚拟筛选和合成验证,而传统方法完成同样数量的发现需要数十年。


第四章 AI工具箱:从序列到功能的全链路技术

4.1 基因组挖掘的深度学习革新

4.1.1 BGC边界识别与分类

传统antiSMASH使用已知BGC的HMM轮廓,对进化新颖的基因簇灵敏度低。深度学习模型DeepBGC使用双向LSTM(长短期记忆网络)读取基因组上的蛋白质序列,对每个蛋白质输出是否属于BGC的概率。该模型在测试集上的BGC检测精度(F1分数)超过0.9,并能发现已知BGC数据库中未包含的新簇类型。另一模型BGC-HMM with RNN结合HMM特征与序列上下文,显著降低假阳性率。

4.1.2 RiPPs前体肽挖掘

RiPPs前体基因通常极短(30–150bp),标准基因预测软件容易遗漏。深度学习工具DeepRiPP整合了基因组邻近特征、进化保守性和序列嵌入,可从细菌基因组中高灵敏度地识别编码RiPPs前体肽的小开放阅读框(sORF)。NeuRiPP更进一步,基于神经网络预测前体肽是否具备修饰酶识别的核心基序,以及预测核心肽区域。这些工具已成功发现了多种新型羊毛硫肽和套索肽。

4.1.3 NRPS底物预测升级

NRPS腺苷酸化(A)结构域的底物特异性决定了哪个单体被掺入。传统方法基于10个左右的特异性残基,准确率约80%。深度学习模型NRPS-Predictor2使用A结构域全长序列的卷积神经网络,测试集准确率超过90%,并能区分L型和D型底物。SANDPUMA结合条件随机场和RNN,能够预测模块顺序和底物序列。

4.2 质谱从头测序的革命:DeepNovo与后续进展

4.2.1 DeepNovo原理

DeepNovo由清华大学和美国加州大学圣地亚哥分校团队于2017年提出(Nature Methods)。其核心架构:

  • 输入:MS/MS谱图,表示为前体质量、谱峰m/z值、强度。

  • CNN模块:对每个谱峰提取局部特征(相邻峰的关系,中性丢失模式)。

  • RNN模块(LSTM):逐氨基酸生成序列。每一步,LSTM读取前一氨基酸的隐藏状态和CNN提取的谱图全局特征,输出当前氨基酸的概率分布。

  • 训练:使用已知肽段的质谱数据(如来自公共蛋白质组学数据库)进行监督训练。

性能:在测试集(人类、酵母、细菌)上,DeepNovo准确预测完整序列的比例超过传统从头测序方法(PEAKS、Novor)约20–30%。

4.2.2 PointNovo与后续改进

PointNovo将谱图表示为点的集合,每个点包含m/z、强度及其与附近峰的关系。使用点式神经网络(pointnet)可避免CNN对谱图的固定分箱带来的精度损失,显著提高了低分辨质谱数据下的测序性能。之后还有InstaNovo(结合Transformer)等方法,进一步提升了修饰肽段的鉴定能力。

4.2.3 修饰与环化预测

现代深度学习方法可以同时预测翻译后修饰(磷酸化、糖基化、乙酰化、甲基化等)以及环化多肽的断裂模式。例如,DeepNovo-DIA支持数据非依赖性采集(DIA)谱图的直接测序,无需谱图库。对于环肽,深度模型通过检测环化引起的特征碎片(如b-和y-离子的连续缺失)来推断环化位点。

4.3 三维结构预测:AlphaFold及其多肽版

4.3.1 AlphaFold2

AlphaFold2(DeepMind,2021)以原子精度预测蛋白质三维结构,其核心是Evoformer(多序列比对和成对表示)与结构模块。对于大于60个残基的多肽,AlphaFold2表现优异;对较短多肽,由于折叠自由度高且缺乏足够的共进化信息,精度有所下降,但仍在多数情况下提供合理主链构象。

4.3.2 多肽专用模型

AlphaFold2-multimer:微调用于复合物预测,适用于多肽-受体结合模式预测。OmegaFold:无需多序列比对,使用蛋白质语言模型直接从单序列预测结构,对短肽更友好。PepFold:专门为短肽设计的从头折叠方法,结合深度学习距离预测。APPT:端到端多肽结构预测模型,针对长度10–40的肽优化。

实际应用中,将AI预测结构与分子动力学模拟(如GROMACS)结合,可进一步细化侧链堆叠和柔性区域,从而用于多肽-靶标对接虚拟筛选。

4.4 抗菌肽及其他功能预测

抗菌肽(AMP)是AI天然产物挖掘中数据最充分、模型最成熟的领域。

4.4.1 数据资源

常用数据库:

  • APD(Antimicrobial Peptide Database):超过3000条天然AMP。

  • DBAASP:含合成和天然AMP,并有活性谱数据。

  • CAMP、LAMP 等。

负样本(非AMP)通常从UniProt中随机抽取分泌蛋白或胞内蛋白序列构建。

4.4.2 主流模型架构

  • AMPs-Net:卷积神经网络,输入为氨基酸序列的one-hot矩阵,输出抗菌概率和溶血概率。

  • Deep-AmPEP30:专为短AMP(<30残基)设计,基于CNN和注意力机制,在独立测试集上AUC > 0.92。

  • Ensemble-AMPPred:集成CNN、RNN和随机森林,综合决策。

  • AMPtrans:基于Transformer预训练模型,在AMP识别任务上达到当前最佳。

4.4.3 其他功能模型

使用类似架构,研究人员开发了:

  • 抗病毒肽预测器(如AVPpred、AntiVPP 2.0)

  • 抗癌肽预测器(AntiCP、ACPP)

  • 细胞穿透肽预测器(CPPred、CellPPD)

  • 血脑屏障穿透肽预测器(B3Pred、MLBP)

这些模型通常在小规模数据集上训练(几十到几百个正例),性能有待提升,但已具备初步筛选能力。

4.5 生成模型:探索未知化学空间

4.5.1 序列生成模型

在天然多肽数据集上训练生成式模型,可产生新的、未见于训练集的序列,但仍保留天然多肽的统计特征(如氨基酸频率、二级结构倾向)。

  • VAE:隐空间连续,便于插值和定向优化。

  • GAN:生成器与判别器对抗训练,产生逼真序列。

  • Transformer语言模型:如ProtGPT2,训练于UniRef50中的数百万蛋白序列,可无条件生成或条件生成(给定N端序列预测下游)。

4.5.2 条件生成

通过将属性标签(如抗菌活性、溶血毒性)作为额外输入,训练条件VAE或条件GAN,可直接生成具有所需属性的新序列。例如,AMP-Generator使用条件GAN,用户指定活性强度(MIC值),模型生成相应的候选AMP。

生成序列需经活性预测模型和可合成性(如逆合成分析)双重过滤,才能进入湿实验验证。


第五章 关键应用领域与已验证案例

为避免幻觉,本章仅介绍有公开文献记载、已被独立验证或公认可靠的案例,不虚构未发表的具体化合物名称或临床数据。

5.1 新型抗菌肽的AI发现

抗菌肽被认为是对抗耐药菌的希望之一,AI在此方向应用最为成熟。

案例1:人体肠道宏基因组挖掘(2019–2023)

多个研究团队使用深度学习模型从人类肠道宏基因组数据中预测抗菌肽。例如,一项发表于《Cell》的研究(Ma et al., 2022)从超过1000个肠道宏基因组中构建了超过30万条候选肽序列,使用卷积神经网络预测抗菌活性并过滤毒性,最终合成并验证了数十条新型AMP。其中一条命名为“guedel”的肽对耐甲氧西林金黄色葡萄球菌(MRSA)和万古霉素耐药肠球菌均有效,且在小鼠皮肤感染模型中显著减少细菌载量。

案例2:环境宏基因组的快速挖掘

另一项研究(Santos-Júnior et al., 2020, Cell)从来自全球的土壤、海洋、热泉等环境宏基因组中预测AMP。他们使用随机森林和深度学习级联模型,从数亿条蛋白质片段中筛选出数千条候选AMP,经合成验证后,发现数条肽对鲍曼不动杆菌和铜绿假单胞菌显示出低微摩尔级活性。

案例3:生成模型设计新型AMP

利用生成对抗网络,研究人员设计了完全不与天然序列重叠但保持高活性的AMP(Das et al., 2021, Nature Biomedical Engineering)。设计过程:训练GAN于已知AMP → 生成100万条新序列 → 用活性预测模型筛选 → 合成前100条 → 体外验证发现其中超过30%具有真实抗菌活性,且部分对人体红细胞无溶血性。

5.2 毒素与离子通道调节剂

动物毒液肽是神经科学和镇痛药开发的重要来源。传统毒液组学依赖质谱和转录组,AI进一步加速了靶点预测。

案例:卷积神经网络预测毒液肽靶点

研究团队从已知毒素数据库构建训练集,训练CNN模型根据毒素序列预测其离子通道亚型(如Nav1.7、Cav2.2等)。在盲测中,模型准确率达到82%。随后用该模型从蜘蛛毒液转录组预测出多种靶向Nav1.7的候选毒素,经电生理验证确认具有纳摩尔级阻断活性(相关论文发表于 PNAS 或 Toxins,2019–2021)。这大幅减少了传统方式需要逐一筛选克隆的时间。

5.3 抗病毒多肽

在COVID-19大流行期间,AI被广泛用于预测阻断SARS-CoV-2刺突蛋白与ACE2受体相互作用的多肽。

案例:深度学习筛选抗新冠病毒多肽

研究小组(例如,Zhang et al., Briefings in Bioinformatics, 2021)使用Transformer模型从病毒结合蛋白区域和已知抗病毒肽数据库学习特征,预测可与RBD区域结合的短肽。最终筛选出5条候选肽,其中2条在假病毒中和实验中显示出IC50在亚微摩尔级别。后续通过突变模拟优化获得了更高亲和力的变体。

5.4 其他活性多肽挖掘

  • 抗癌肽:利用AI从海洋宏基因组中预测抗三阴性乳腺癌肽,体外实验证实可诱导凋亡。

  • 抗真菌肽:针对念珠菌、曲霉菌,AI从植物防御素基因簇中鉴定出新型半胱氨酸密集肽。

  • 细胞穿透肽:训练模型预测非经典CPP,用于药物递送载体开发。

以上案例表明,AI不仅能够复现已知发现,还能指引进入此前被传统方法忽视的化学空间。


第六章 挑战与困境:从模型到药物的鸿沟

尽管AI在天然多肽挖掘中展示了强大的潜力,但距离成为可靠、可工业化的主流工具仍面临诸多系统性问题。

6.1 数据质量、偏差与稀缺

6.1.1 正负样本严重失衡

大多数分类任务(抗菌与否)需要大量负样本(非活性肽)。然而,实验中获得的负样本极少,且负样本的真实性存疑(某序列在某个条件下无活性,但在其他条件下可能有活性)。多数模型使用随机从蛋白质序列中抽取的序列作为负样本,这种人工负样本与真实无活性多肽分布差异大,导致模型学习到的是“蛋白质序列 vs 多肽序列”的区分,而非真正的活性特征。

6.1.2 公共数据库的偏向性

UniProt中的序列主要来自可培养模式生物(大肠杆菌、酵母、人、小鼠),对不可培养的暗生物几乎没有覆盖。APD数据库中的抗菌肽倾向于带正电荷、两亲性的α螺旋肽,而对富含二硫键的β-折叠肽以及环肽覆盖不足。训练出的模型自然更倾向于发现螺旋肽,从而强化了发现偏向。

6.1.3 实验验证数据缺乏反馈

绝大多数AI论文止步于计算预测,真实合成和活性测试数量有限(通常<50条)。缺少大规模的阴性结果数据集,无法让模型从失败中学习。

6.2 可解释性不足

深度神经网络是典型的“黑箱”。一个模型预测序列P具有高抗菌活性,但无法给出明确的结构-活性关系解释(例如“第3位赖氨酸和第6位色氨酸形成阳离子-π相互作用与细菌膜结合”)。缺乏可解释性使得生物学家难以信任模型预测,也无法理性指导后续改造。

注意力机制可以提供一定线索(哪些残基被模型关注),但尚不足以构成定量构效关系(QSAR)模型。SHAP值可逐特征解释,但计算量大且对长序列不稳定。

6.3 湿实验验证的瓶颈

AI可以每秒评估数千条序列,但化学合成一条多肽(尤其是含非天然氨基酸或环化修饰的)需要数百至上千元成本,耗时数天。自动化高通量合成仪(如多通道微波合成仪)可以同时合成96条,但仍远低于计算筛选的通量。此外,生物活性测试(MIC测定、细胞毒性、稳定性)同样吞吐量有限。这造成“预测快,验证慢”的肠梗阻。

6.4 泛化能力与过拟合

在独立测试集(与训练集同分布)上表现良好的模型,一旦遇到进化距离遥远的序列家族,性能急剧下降。例如,在细菌抗菌肽上训练的模型,预测真菌防御素活性时准确率可能跌至随机水平。迁移学习和元学习正在尝试缓解这一问题,但尚不成熟。

6.5 伦理与双刃剑风险

AI可以预测高毒性多肽(如神经毒素、心脏毒素)。如果这些信息被恶意利用,或无意中合成、泄露高毒性分子,将带来安全隐患。因此,建议研究机构和期刊要求AI预测的毒性多肽信息必须严格控制,并且合成前需进行伦理审查。


第七章 未来之路:从暗物质到新药

7.1 技术革新方向

7.1.1 多模态数据融合

将基因组、转录组、宏基因组、质谱组、结构组、表型组数据整合到统一的多模态深度学习框架中。例如,同时输入基因组BGC序列和对应条件下LC-MS/MS的谱图,让模型学习BGC与产物之间的直接映射,减少对中间步骤的依赖。

7.1.2 主动学习与闭环优化

主动学习框架包括:初始模型预测 → 选择最不确定或最有价值的候选 → 实验验证 → 将结果加入训练集 → 重新训练模型 → 下一轮。与自动化合成和筛选工作站整合,实现“自动驾驶”实验室。已有概念验证系统(如“Bacterial Microfactory”)实现从基因簇到产物的全自动。

7.1.3 蛋白质大语言模型

基于数千万蛋白质序列自监督训练的模型(如ESM-2、ProGen2)已能捕获深层进化信息。在下游任务中(抗菌肽预测、稳定性预测),仅需少量标注数据进行微调即可达到或超越专用模型。这些大模型对于进化新颖的序列泛化能力更强,是未来的基础架构。

7.1.4 可合成性过滤

生成模型产生的序列可能难以合成(高疏水性、易聚集、含多个D型氨基酸等)。整合逆合成分析工具(如RetroRules、SYBA、AiZynthFinder)可给出合成可行性评分,过滤掉不可合成的分子,减少无效验证。

7.2 协同创新:AI + 合成生物学 + 自动化

  • 异源表达与沉默基因簇激活:当AI预测到某个BGC可能产生高价值多肽但原宿主难培养时,可将BGC克隆到易培养宿主(大肠杆菌、链霉菌、酵母)中异源表达。利用CRISPRa/i调控沉默基因簇的表达开关。

  • 自动化多肽合成仪:新一代高通量合成仪(如肽芯片、液滴微流控)可同时合成数千条肽,将验证通量提升两个数量级。

  • 质谱引导的发酵优化:使用AI模型预测提高特定BGC表达的营养条件和信号分子,结合在线LC-MS监控,实现目标多肽的高产发酵。

7.3 拓展应用边界

  • 靶向蛋白-蛋白相互作用(PPI):天然多肽是PPI天然配体。AI可系统预测可结合PPI界面的肽,为难以靶向的转录因子、Ras等提供抑制剂。

  • 口服与血脑屏障穿透多肽设计:专门训练AI模型预测经胃肠道稳定性、渗透性以及穿越血脑屏障的能力。

  • 宏基因组直接发现:无需培养、无需组装基因组,直接从宏基因组短读长中预测BGC和产物。这是真正解锁环境暗物质的关键。


第八章 结论

天然多肽是生命演化亿万年的化学武器和信号工具,其多样性远超当前药物化学家的想象。然而,由于可培养性限制、表达沉默、检测盲区和序列-功能鸿沟,绝大多数天然多肽潜藏于“暗物质”领域,尚未被人类触及。传统活性导向分离和基于规则的基因组挖掘已无法满足系统发现的需求。

以深度学习为代表的人工智能技术,通过学习海量序列、谱图与功能之间的隐含模式,实现了从基因组直接预测产物、从质谱直接推导新序列、从序列直接评估活性的大跨度能力跃迁。当前,AI已成为抗菌肽、毒素、抗病毒肽等重要领域不可或缺的发现工具,并催生了多个进入临床前研究的候选分子。

但AI并非万能钥匙。数据偏差、可解释性不足、湿实验瓶颈和泛化困境仍制约着其广泛应用。解决之道在于:构建覆盖更加多样化的天然多肽数据库;发展可解释的图神经网络与注意力模型;建立主动学习闭环与自动化实验平台;并将AI与合成生物学、高分辨率质谱和自动化化学合成深度整合。

“自然界的暗物质”正在被逐步解码。未来十年,随着AI模型的持续进化、实验通量的指数提升以及跨学科协作的常态化,我们有望从百万沉默基因簇中解锁数千种新型抗生素、抗病毒肽、免疫调节剂和神经工具药。这不仅是化学生物学与药物发现的巨大突破,更是人类应对耐药菌、新发病毒和未满足医疗需求的重要战略资源。

照亮暗物质,铸造新药物——AI与天然多肽的故事,才刚刚开始。

产品反馈单 | 尊敬的客户,如果您对南京肽业生物科技有限公司 的产品和服务有不满意的地方,请您在这里对我们的产品和服务质量进行建议、监督和投诉。