YM说多肽|智能多肽|进化密码破译者：AI驱动的毒液与微生物组多肽挖掘|南京肽业

进化密码破译者：AI驱动的毒液与微生物组多肽挖掘

摘要

天然多肽作为生命演化锤炼出的分子武器库，其多样性远超人类已有认知。与人工合成多肽相比，源自有毒动物毒液和人体微生物组的天然多肽，经过数亿年自然选择的精密打磨，在靶向性、生物活性和结构独特性方面具有不可替代的优势。然而，传统挖掘方法长期受困于培养依赖性、低通量和高偏向性，使这一庞大资源沦为生物学领域的“暗物质”。本文聚焦“天然毒液+微生物组”双引擎驱动的AI挖掘模式，系统阐述有毒动物毒液的分子多样性与药用价值、人体微生物组中隐藏的多肽宝藏，以及蛋白质语言模型如何突破序列相似性依赖，实现对进化远源活性多肽的高精度识别。以HMD-AMP框架为典型案例，展示从九种哺乳动物肠道微生物中成功挖掘超过3700万条抗菌肽候选序列、实验验证阳性率达84%的技术突破。同时，以佩德生物和宾夕法尼亚大学APEX模型为行业标杆，剖析“自然智慧+AI解码”双轮驱动模式的产业落地路径。本文旨在为多肽药物发现领域提供一份融合技术深度与产业视角的综述，揭示天然多肽宝库从“暗物质”到“新药源头”的转化路径。

关键词：天然多肽；暗物质；毒液；微生物组；人工智能；蛋白质语言模型；抗菌肽

第一章绪论：为什么是毒液和微生物组？

1.1 天然多肽的两大“暗物质”来源

在天然多肽的浩瀚宇宙中，有两个来源因其巨大的进化压力和未开发潜力，被视为“暗物质”最为集中的区域：有毒动物毒液和人体及环境微生物组。

有毒动物毒液：蛇、蝎子、蜘蛛、芋螺、青蛙、蚂蚁等有毒动物经过数亿年的进化，将毒液打磨成高度精密、靶向专一的化学武器。毒液中的主要活性成分是多肽和蛋白质，这些分子在进化压力下不断优化，具备了极高的靶点亲和力、稳定性和代谢半衰期。据保守估计，全球超过20万种有毒动物，每种毒液包含数百至数千种不同的多肽分子，总潜力可达数千万级别。然而，目前已被鉴定和表征的毒液多肽仅占极小比例。

微生物组：人体肠道、口腔、皮肤等部位栖息着超过100万亿微生物，其基因组总规模是人类基因组的100倍以上。这些微生物在与宿主长期共进化过程中，演化出大量用于竞争、防御和信号交流的多肽分子，包括抗菌肽、群体感应肽、肠毒素等。全球环境和宿主相关栖息地的宏基因组数据同样蕴含着海量未被开发的微生物多肽序列。一项2024年发表的大规模研究利用来自63,410个宏基因组和87,920个原核基因组的数据，预测出863,498种非冗余抗菌肽，其中绝大多数与现有数据库中的肽无匹配。

1.2 自然进化的“先行验证”：为什么天然多肽优于从头设计？

AI生成式设计可以创造任意多肽序列，但化学空间（约10^60种可能序列）浩瀚无边，绝大多数序列不具备生物学功能。天然多肽的核心优势在于，它们已经通过了自然进化这一“最严苛的筛选”。经过数百万乃至数亿年的演化和选择，天然多肽在靶向性、稳定性、生物利用度和毒性等方面已进行了充分优化。用工业界人士的话来说：“自然已经替我们完成了海量筛选，我们要做的不是发明，而是发现。”

1.3 文章核心论点

本文的核心论点是：天然多肽宝库的系统性挖掘，需要“自然智慧”与“AI解码”的双轮驱动。一方面，充分利用有毒动物毒液和微生物组中经过进化验证的分子多样性（自然智慧）；另一方面，借助蛋白质语言模型等AI技术突破传统依赖序列相似性的瓶颈，实现高精度、高通量的定向挖掘（AI解码）。两者的结合，有望从根本上解决多肽药物研发中长期存在的“分子来源瓶颈”与“转化效率低下”两大核心痛点。

第二章天然毒液：自然进化的分子武器库

2.1 毒液的进化逻辑：为什么毒液多肽是理想的药物原型？

毒液是有毒动物在捕食、防御和种内竞争中使用的高度复杂化学混合物，经过数亿年的自然选择锤炼而成。从进化的视角理解，毒液多肽之所以成为理想药物原型，基于以下特征：

高度靶向性：毒液需要在极短时间内精准作用于猎物或天敌的特定生理系统（神经系统、心血管系统、凝血系统等），这驱动了毒液分子对离子通道、受体、酶等关键蛋白质的高特异性结合能力。
代谢稳定性：毒液分子需要在外界环境中保持活性，并在注入体内后抵抗降解，因此往往具备二硫键密集骨架、环化结构或非天然氨基酸修饰。
结构多样性：不同的有毒动物类群独立进化出各自的多肽骨架，形成了从线性α-螺旋到富含二硫键的β-折叠、从简单环状到套索结构的丰富多样性。

正是这些特征，使毒液多肽在多肽药物领域创造了多个里程碑：从锥螺毒液中提取的齐考诺肽已成为治疗慢性疼痛的经典药物；从蛇毒中发现的卡托普利则是高血压治疗的“王牌”药物。这些成功案例印证了毒液多肽的药物化潜力，也激发了科学界对其大规模挖掘的热情。

2.2 毒液多肽多样性的量化图景

毒液多肽的多样性规模令人震撼。据2024年发表于《GigaScience》的研究综述，目前全球毒液研究领域已积累了多个大型数据库，包括专注于芋螺肽的ConoServer、包含蜘蛛毒素的ArachnoServer、孟加拉国蛇毒数据库ISOB，以及从UniProt整理的综合性毒液数据库VenomZone。公开的毒液相关数据库已收录数万条毒液蛋白质序列，但这仅是冰山一角。

以佩德生物为代表的企业级毒液数据库则达到了工业规模。该公司已采集超过2000种有毒动物样本，利用基因组、转录组、多肽组等多组学技术进行系统分析，积累3500余个多组学样本库，获得近2亿条非冗余天然活性多肽序列。这一规模在全球非公开领域的工业界毒液组学中属于顶级水平。

更重要的是，不同有毒动物的毒液在组成上高度互补：蛇毒富含蛋白酶抑制剂和神经毒素，蝎毒以钾通道和钠通道毒素为主，蜘蛛毒液包含丰富的抗菌肽和杀虫肽，芋螺毒液则以高度多样化的离子通道调节肽著称。这种互补性意味着，整合多种有毒动物的毒液数据，能够覆盖更广阔的靶点空间。

2.3 毒液多肽挖掘的传统范式与局限

传统毒液多肽挖掘依赖两种范式：一是基于实验的毒液组学，即通过采集有毒动物→提取毒液→液相色谱分离→质谱鉴定→活性筛选的线性流程；二是基于序列同源性的生物信息学搜索，通过BLAST等工具寻找与已知毒素相似的序列。

两种范式各有局限。实验范式受限于标本获取难度、毒液微量性和活性筛选通量，每次仅能探索数种动物、数十条多肽。同源性搜索范式则陷入“已知找已知”的困局：如果新序列与已知毒素相似度低，同源性搜索就会漏掉。而在进化距离较远的不同有毒动物类群之间，功能相似的多肽可能序列同源性极低——这种“趋同进化”现象在毒液系统中极为常见。佩德生物创始人容明强教授团队就曾观察到：尽管不同有毒动物在进化树上相距遥远，其毒液分子却呈现出强烈的趋同进化趋势，主要靶向神经系统、凝血系统、免疫系统等关键生命通路。这意味着，跨物种的毒液多肽挖掘必须超越序列比对，走向功能与结构的深层理解。

2.4 代表性工业实践：佩德生物的“天然多肽+AI”模式

2.4.1 公司定位与技术路线

佩德生物成立于2021年，总部位于成都，专注于基于动物毒液多肽定向挖掘体系开发创新多肽药物。公司依托首席科学家、院士有效候选人赖仞研究员的国家技术发明二等奖成果进行转化，其核心技术路线可概括为“规模化建库 + AI智能挖掘 + 干湿闭环迭代”。

与大多数多肽企业依赖已知化学修饰或单一靶点筛选不同，佩德生物锚定自然进化验证的毒液分子这一“分子来源”源头。公司董事长容明强教授在2026年5月的战略发布会上明确指出：“未来多肽创新的关键，不在‘优化’，而在‘源头’。”

2.4.2 天然多肽库建设：VCM平台

五年建设周期中，佩德生物打造了天然多肽药物源头平台（VCM），其核心资产包括：

物种覆盖：超过2000种有毒动物物种（蛇、蝎子、蜘蛛、青蛙、芋螺等），覆盖全球主要有毒动物类群；
多组学数据：3500余个多组学样本库，整合基因组、转录组、多肽组数据；
序列规模：近2亿条非冗余天然活性多肽序列。

这一基础设施的建成，标志着佩德生物将多肽药物研发的起点从“化学合成”前移到了“生物发现”，从源头上获得了差异化的分子知识产权。

2.4.3 AI驱动：EvoPulse AI与干湿闭环

面对2亿条序列的海量数据，佩德生物自主开发了AI多肽发现平台（EvoPulse AI），覆盖“序列—结构—功能—互作—优化”全链条的智能分析。技术架构分为四大模块的协同工作：

序列模块：基于蛋白质语言模型提取深层序列特征；
结构模块：利用AlphaFold2等工具预测三维结构；
功能模块：深度学习模型预测抗菌、抗炎、镇痛等功能活性；
互作模块：多肽-靶蛋白对接模拟与亲和力预测。

真正形成核心竞争力的，是佩德生物构建的“干湿闭环”研发流程：

干实验（AI端）：四大模型协同工作，秒级完成海量候选的虚拟初筛与功能预测；
湿实验（生物端）：对AI筛选出的高置信候选分子进行化学合成与功能验证；
飞轮效应：湿实验产生的真实世界活性数据反向输入AI模型，增加分子“注释”维度和可信度，使下一轮筛选的“信噪比”显著提升。

这一模式可将临床前候选化合物（PCC）的发现成本降低60%至70%，显著缩短从天然多肽到候选药物的转化周期。

2.4.4 管线布局与商业验证

佩德生物聚焦四大核心治疗领域进行管线布局：

PD-008（抗感染）：源于青蛙皮肤分泌物，新一代痤疮治疗药物。该管线在2025年启动I期临床试验后，以9000万元交易金额成功对外授权，是公司技术路径商业可行性的首次验证。
PD-015（呼吸系统）：国内首个新机制肺纤维化多肽抑制剂，初步研究显示疗效优于现有标准药物且副作用更低。
PD-016（神经系统）：靶向离子通道的非阿片类慢性疼痛药物，起效更快、副作用更低，已完成动物模型验证。
PD-006（心血管）：精准靶向新型抗凝靶点，旨在解决传统抗凝药易引发出血的临床痛点。该管线源于蜘蛛毒液的天然多肽，经过生成式多肽变体工程优化后，半衰期延长数十倍，实现了每周仅需注射一次的给药方案。

截至目前，佩德生物已累计申请专利70余项，获得四川发展院士基金、华西证券、国生资本等多轮融资。

2.5 国际前沿案例：APEX模型与全球毒液组学挖掘

佩德生物并非孤例。2025年，美国宾夕法尼亚大学Cesar de la Fuente-Nunez团队在《Nature Communications》发表了一项毒液挖掘的突破性研究。

团队整合ConoServer、ArachnoServer、ISOB和VenomZone四大数据库，构建了涵盖16,123种毒液蛋白质的全球毒液数据库。随后应用名为APEX的序列到功能深度学习模型，对每条毒液蛋白进行酶切模拟，生成了超过4000万个毒液加密肽段（VEPs）。APEX模型能够预测每条肽段对34种细菌的最小抑菌浓度（MIC），结合序列新颖性筛选，最终鉴定出386种结构独特的抗菌肽候选分子。

在实验验证阶段，团队合成并测试了58条候选肽，其中53条（91.4%）对至少一种耐药菌表现出显著抑制活性。最令人瞩目的是，源自狼蛛Geolycosa riograndae的M-lycotoxin-Gri2c衍生肽Arachnoserver-5，在仅2 μmol/L浓度下即可完全抑制细菌生长，且在小鼠模型中实现了3-log的细菌负荷降低。

这一研究的核心突破在于：APEX模型发现的大部分毒液肽段与已知抗菌肽序列相似度极低，且在理化特征分析中显示出独特的分子性质——例如蜘蛛源肽富含赖氨酸（18.7%），蛇毒肽苯丙氨酸含量突出（12.3%）。这意味着，传统依赖同源性搜索的方法根本无法触及这些全新的化学空间。

2.6 毒液挖掘的挑战与思考

尽管取得了令人振奋的进展，毒液多肽的工业化挖掘仍面临多重障碍：

样本获取困难：部分有毒动物濒危或分布狭窄，合法采集受限。佩德生物通过系统性的野外采集与国际合作，已覆盖2000余物种，但更多物种仍无法触及。
毒性风险管控：AI预测出的候选多肽可能具有意外的高毒性，需在湿实验阶段建立完善的安全性评估流程。
多组学整合复杂度高：从基因组、转录组到多肽组的全链条整合需大量计算资源和算法开发。
知识产权壁垒：天然序列本身是自然产物，专利保护需依赖于“人工干预”（如变体工程、制剂方案）。

第三章微生物组：隐藏的抗菌肽宇宙

如果说毒液多肽是“高度专业化”的分子武器，那么微生物组中的多肽则是“生态化分布”的分子宝藏。微生物在竞争、防御和协同的生态网络中，进化出极其丰富的多肽分子，其中抗菌肽尤为突出。

3.1 微生物组中多肽的生物合成潜力

微生物组中多肽的来源主要有两类：

核糖体合成与翻译后修饰多肽（RiPPs）：由基因编码的前体肽经核糖体合成，随后经过系列修饰酶作用形成成熟分子，包括羊毛硫肽、套索肽、蓝菌肽等。RiPPs的特点是序列紧凑、结构明确，适合基因组挖掘。
直接分泌的短肽：许多微生物（如乳酸菌、枯草芽孢杆菌）分泌5-50个氨基酸的短肽，用于群体感应、种间竞争和宿主互作。

2024年发表于《Cell》的一项里程碑研究揭示了微生物组抗菌肽的惊人规模。研究团队利用来自环境和宿主相关栖息地的63,410个宏基因组和87,920个原核基因组，采用机器学习方法预测出863,498种非冗余抗菌肽（AMPSphere数据库）。这些肽绝大多数与现有数据库中已知AMP序列不匹配。实验验证中，合成并测试的100条AMP有79条具有活性，63条针对临床相关的耐药病原体有效。

此外，一项针对海洋宏基因组的研究利用深度学习方法TrRiPP，在全球海洋微生物组中系统性地识别了核糖体多肽（RiPP）的生物合成潜力，揭示了RiPP在海洋原核生物-噬菌体相互作用中的生态功能。

3.2 传统方法的“序列相似性陷阱”

传统抗菌肽挖掘方法高度依赖与已知AMP的序列相似性。BLAST搜索要求候选序列与已知AMP有显著的同源性；基于HMM的模型则需要从已知AMP家族中提取保守基序；机器学习方法所使用的训练集主要由已知AMP组成。

这种做法本质上是在已知AMP的“邻域空间”内进行局部扩展。然而，进化的逻辑并非如此：两个功能相同的多肽可能来自完全不同的蛋白家族，或者由独立起源的基因编码。对于这种“趋同进化”或“远源同功”的多肽，序列相似性搜索完全失效。正如HMD-AMP的开发者所指出的，当测试序列与训练集相似度低于40%时，传统模型的性能显著下降，而真正具有结构新颖性的多肽往往就落在这个区域内。

3.3 HMD-AMP：蛋白质语言模型驱动的远源AMP挖掘

3.3.1 研究背景与核心创新

2026年3月，香港中文大学李煜博士团队与中国科学院深圳先进技术研究院戴磊研究员团队合作，在《Nature Biomedical Engineering》发表论文，提出了一种基于蛋白质语言模型的AMP挖掘框架——HMD-AMP。该研究针对现有AMP挖掘方法的三大核心挑战提出了系统性解决方案：

已知AMP仅覆盖极小的序列空间，短肽进化迅速且高度多样；
多数数据库仅包含阳性样本，难以构建高质量负样本；
当前研究集中于微生物来源AMP，宿主基因组中潜藏的大量天然AMP仍被忽视。

HMD-AMP的架构由三个核心组件构成：

ESM-2蛋白质语言模型：利用经短肽数据微调的大规模预训练语言模型ESM-2，从序列中提取深层嵌入表示；
分层深度森林分类器：替代传统深度神经网络的深度森林结构，包含级联多层随机森林，特别适合处理高维嵌入特征并提升泛化能力；
端到端预测体系：整合AMP识别（二分类）和功能类型预测（多分类：革兰氏阳性/阴性菌、真菌、病毒、癌细胞、哺乳动物细胞）任务。

3.3.2 从“序列比对”到“语义理解”的范式转变

与依赖显式序列比对的方法不同，蛋白质语言模型通过大规模无监督学习捕捉蛋白质序列中的“隐式语义表示”，即进化与结构层面的深层规律。由于ESM-2在训练过程中已接触过数以亿计的蛋白质序列，它学习了蛋白质的“语法”——哪些氨基酸倾向于共现、哪些模式对应哪些结构特征。当输入一条全新多肽序列时，模型通过注意力机制提取其语义表示，再传递给深度森林进行最终判断。

HMD-AMP在多组基准测试中展现出显著优势。在五折交叉验证及跨界（动物、植物、细菌）测试中，HMD-AMP整体性能优于传统机器学习与深度学习模型，尤其在细菌来源测试集中F1-score优势尤为明显。在最严苛的条件下——测试序列与训练集序列相似度低于40%、结构相似性TM-score低于0.5——其他模型性能大幅下降，而HMD-AMP仍保持稳定表现。

3.3.3 3700万条候选序列与84%阳性率

HMD-AMP框架应用于九种哺乳动物（猪、小鼠、大鼠、狗、猫、牛、羊、马、兔）的肠道微生物基因组和宿主基因组，共预测出超过3700万条潜在AMP序列。值得注意的是，绝大多数候选序列与训练集中已知AMP的序列相似度低于40%，这正是传统方法无法触及的“暗物质”区域。

以猪肠道微生物组及宿主基因组为详细案例，团队从超过140亿条肽序列中筛选出7647条候选序列进行实验验证。经化学合成和体外抗菌活性测试，62条高置信候选中有52条表现出显著抗菌活性，阳性率达到84%。其中30条为序列新颖的远源AMP（相似度<40%），更有4条与已知AMP的相似度低于10%。

跨宿主验证实验进一步验证了方法稳健性：在其他哺乳动物肠道来源的29条候选中，22条（76%）表现出良好抗菌活性，其中18条为远源新序列。

3.3.4 结构趋同进化与体内药效验证

对74条经实验验证的有效多肽进行序列和结构分析发现了一个重要现象：尽管其中48条与已知AMP进化距离遥远（序列相似性<40%），但结构预测证实它们仍然保留了经典的两亲性α-螺旋或β-折叠拓扑特征。这印证了抗菌肽的作用机制在进化中的高度趋同：无论序列如何变异性，实现膜破坏功能所需的整体结构骨架必须满足特定的物理学要求。

研究团队对14条活性较高的AMP进行了深入评估。其中8条（含4条远源新序列）的抗菌活性可与多粘菌素B、万古霉素等临床药物相媲美。细胞毒性实验与溶血实验均未表现出明显毒性。在体内药效验证中，Swine_2在小鼠腹腔大肠杆菌感染（腹膜炎）模型中显著提高了感染小鼠的存活率，验证了其体内治疗潜力。

这一研究的意义不仅在于发现了一批高活性的新型抗菌肽，更重要的是验证了蛋白质语言模型突破“序列相似性”瓶颈的有效性，为大规模远源AMP挖掘提供了可复制的技术范式。

3.4 微生物组抗菌肽的进化起源与生态意义

AMPSphere研究提供了一个关于AMP进化起源的重要线索。研究团队的进化分析表明，AMP可以通过两种机制产生：一是由较长的编码序列通过基因复制后发生截断，从而产生具有独立功能的小肽片段；二是由原本不具有抗菌功能的序列通过突变逐步获得抗菌活性。这一发现挑战了AMP功能仅来源于专门基因簇的传统认知，暗示着抗菌肽的潜在来源可能比想象中更为广泛。

此外，不同栖息地的微生物组产生的AMP特征差异显著。深海热泉、土壤、植物根系、动物肠道等不同生态位的宏基因组展现出各自独特的AMP组成模式。这意味着，要系统性地挖掘天然多肽宝库，需覆盖尽可能多的生境类型。

第四章蛋白质语言模型：解码多肽“暗物质”的技术基石

4.1 什么是蛋白质语言模型？

蛋白质语言模型是将自然语言处理领域的Transformer架构迁移到蛋白质序列分析的技术路线。其核心思想是：将氨基酸视为“单词”，将蛋白质/多肽序列视为“句子”，通过在海量无标注序列上的自监督学习，让模型学习蛋白质的“语法”和“语义”。

代表性蛋白质语言模型包括：

ESM-2：由Meta AI开发，参数规模从800万到150亿不等，基于UniRef50等数据库预训练；
ProtBERT：Hugging Face开发的BERT风格的蛋白质语言模型；
ProtGPT2：基于GPT-2架构的蛋白质序列生成模型；
ProtT5：基于T5架构，在蛋白质序列理解任务上表现优异。

4.2 ESM-2的技术原理与在远源多肽识别中的优势

ESM-2采用Transformer编码器架构，输入为氨基酸序列的token序列，通过多层自注意力机制捕捉序列中任意两个位置的依赖关系。预训练阶段，模型在海量蛋白质序列上进行“masked language modeling”任务——随机遮罩一部分氨基酸，训练模型根据上下文预测被遮罩的残基类型。

经过这一预训练过程，ESM-2在最后一层输出的每个位置的隐状态向量（通常为1280维，ESM-2_150B版本）编码了丰富的结构语义信息：不仅包含该残基本身的类型信息，还包含了它与序列中其他残基的上下文关系，以及可能的三维结构约束。

在HMD-AMP中，团队对ESM-2进行了适应性微调：在专门的多肽数据集（5-100个氨基酸的短肽）上对预训练模型进行额外训练，使其更擅长处理短序列的特殊统计特性。

与传统方法相比，PLM的核心优势恰恰切中了远源多肽识别的痛点：

隐式特征学习：PLM无需人工设计特征（如氨基酸组成、电荷数、疏水性矩），直接从序列中提取深度学习特征；
不依赖显式比对：与传统BLAST或HMM不同，PLM采用语义嵌入匹配策略，通过将两条序列映射到同一语义空间来比较其功能相似性，无需逐位对齐；
抗序列相似性瓶颈：在低相似度条件下，PLM衍生的嵌入向量之间的相似度往往高于原始序列的相似度，因为嵌入编码了更深层的结构约束。

4.3 蛋白质语言模型在多肽挖掘中的其他应用

ESM-2在HMD-AMP之外的多肽发现任务中也展现了广泛适应性：

毒素蛋白分类：基于门控循环单元的深度学习方法对毒液蛋白进行分类，比传统方法快20倍以上，内存消耗更低；
生物合成基因簇中的RiPPs识别：基于ESM-2架构进行领域自适应预训练，专门用于识别套索肽的前体序列和修饰模式；
多肽-靶蛋白结合预测：通过ESM-2的肽潜在空间高斯扰动生成候选肽，再利用对比学习筛选与靶点具有选择性相互作用的新序列；
多肽酶切位点预测：微调后的ESM-2可用于精准预测多肽被蛋白酶切割的位置，适用于毒液多肽成熟过程建模。

这些案例共同揭示了一个趋势：PLM正在成为天然多肽挖掘的“基础设施”。它打破了“序列比对”这一数十年以来传统生信方法的底层范式，让远源多肽识别从“不可能”变成了“可规模化执行”的任务。

第五章 “自然智慧+AI解码”双轮驱动的产业图景

5.1 佩德生物作为“自然智慧+AI解码”的典型范例

佩德生物的技术路线与本文核心论点高度契合。其VCM平台存储和管理的2亿条天然多肽序列，是“自然智慧”的数字化载体。这些序列来自超过2000种有毒动物，覆盖蛇、蝎、蜘蛛、芋螺、青蛙等主要类群，是经过数亿年进化筛选的高质量分子资源。

与此同时，EvoPulse AI平台覆盖“序列—结构—功能—互作—优化”的全链条智能分析，是“AI解码”的执行引擎。在“干湿闭环”运行数轮之后，AI模型的预测能力持续增强，湿实验成本持续降低。佩德生物披露，这一模式可将PCC发现成本降低60%-70%，意味着在相同的经费预算下，可筛选的分子数量提升数倍。

从产品管线布局来看，PD-008（痤疮）、PD-015（肺纤维化）、PD-016（慢性疼痛）、PD-006（抗凝）覆盖了四个差异化的治疗领域。PD-008已经完成了从分子发现到临床授权转化的完整商业验证。

5.2 国际研究格局与差异化路径

除了佩德生物代表的企业路径，国际学术界在毒液和微生物组挖掘领域也有重要布局。

路径一：全球毒液组学挖掘（APEX模型） ——学术驱动，数据库整合 + 深度学习，强调对已知毒液蛋白质的系统性再挖掘，以发现新型抗菌肽为目标。

路径二：微生物组AMP挖掘（AMPSphere） ——学术驱动，大规模宏基因组 + 机器学习，构建公开AMP数据库资源。

路径三：远源AMP挖掘（HMD-AMP） ——学术机构合作，蛋白质语言模型 + 深度森林 + 湿实验验证，突破序列相似性限制，拓展序列空间。

路径四：天然毒液库 + AI平台（佩德生物模式） ——企业驱动，自有大规模天然多肽库 + 全链条AI + 干湿闭环 + 管线开发。

四条路径各有侧重，但共同趋势是：自然来源的多肽资源正与AI技术深度融合，“挖掘”而非“设计”正在成为多肽创新的重要方向。

5.3 商业逻辑与可持续性

从商业化视角审视“自然智慧+AI解码”模式，其经济合理性在于：

高成功率：天然多肽的自然进化验证降低了临床前失败风险。佩德生物PD-008的成功授权是初步验证。HMD-AMP研究中84%的实验验证阳性率表明AI筛选出的候选分子具有极高的真实活性比例，远高于传统高通量筛选的1%-5%。
差异化的知识产权：来源于特定有毒动物类群的天然多肽序列具有与人工合成多肽完全不同的序列空间分布，构成为企业或研究机构构建竞争壁垒的核心资产。
低成本发现：AI驱动的虚拟筛选大幅降低了湿实验阶段的资源投入。

第六章挑战、瓶颈与未来方向

6.1 数据规模与质量的持续挑战

尽管已有多项突破性研究，天然多肽挖掘的数据基础仍远未完备。AMPSphere和HMD-AMP等研究虽然分析了数万个宏基因组，但与全球微生物组的总规模相比只是冰山一角。有毒动物的毒液多肽同样如此——已被测序和分析的物种仅占总数的一小部分。

除覆盖广度外，数据质量也面临挑战。宏基因组数据的组装、基因预测和开放阅读框翻译等步骤都可能引入序列错误。某些微生物基因组中存在大量假基因或非编码序列被误翻译为短肽的情况。如何在高通量挖掘中有效过滤这类假阳性，是持续需要攻克的工程问题。

6.2 远源序列的实验验证可行性

HMD-AMP研究验证了84%的候选序列具有活性，但这是在经过多轮AI筛选后的高置信子集上得到的结果。如果放大到数千万级别，无法对所有序列进行湿实验验证。如何从候选集中选择最具潜力的少数进行验证，涉及复杂的算法和成本权衡。此外，高活性多肽可能伴随意想不到的毒性——在HMD-AMP中大部分候选低毒，但毒液来源的候选物毒性风险更高。

6.3 蛋白质语言模型的“黑箱”问题与可解释性

深度学习普遍面临的“黑箱”问题同样困扰着蛋白质语言模型。ESM-2虽然能精准区分远源AMP，但它难以揭示究竟哪些氨基酸残基的组合贡献了抗菌活性。注意力机制可以提取模型训练过程中关注哪些位置的权重分布，但这只是线索而非确切的物理机制解释。一些研究正在开发“基于注意力机制的反向追踪”方法，但尚不成熟。

6.4 知识产权策略的差异化思考

天然序列无法直接申请专利——它是自然产物。企业或研究机构需要证明发生了某种形式的“人工干预”，例如通过变体工程对天然序列进行定向优化（如PD-006的变体工程）、制剂技术创新（如将天然肽与递送载体组合）以及结构功能性改造。佩德生物在PD-006管线中采用生成式多肽变体工程进行半衰期优化，正是这种策略的体现。

6.5 未来展望：从“挖掘”走向“全流程自动化”

当前天然多肽挖掘虽然已引入AI，但从样本采集到基因组测序到AI预测再到湿实验验证的全流程中，许多环节仍依赖手动操作和人工决策。未来的方向是全流程自动化。

在基因组端，整合高通量测序与自动化基因组组装、基因预测和BGC注释流程，每日可处理数百个新物种的基因组数据。在AI端，将主动学习框架嵌入HMD-AMP等模型中——模型每次选择最不确定的序列进行湿实验验证，将结果返回训练集进行增量学习，逐步提升模型在特定生境或功能类型上的性能。在湿实验端，自动多肽合成仪可同时合成96条多肽、高内涵筛选平台可实现自动化的多种病原体抗菌活性检测。当这些模块整合为自动化的“端到端发现流水线”，天然多肽的发现速度可再提升一个数量级。

第七章结论

天然多肽暗物质的系统性挖掘，正在经历一场由人工智能驱动的范式变革。有毒动物毒液和人体微生物组作为两个最具潜力的分子资源来源，经过数亿年自然进化的锤炼，承载着丰富的活性骨架和独特的靶向机制。以佩德生物为代表的企业和以HMD-AMP、APEX、AMPSphere为代表的学术研究，正在共同推动这一领域走向深度和规模。

蛋白质语言模型的突破是这场变革的技术催化剂。ESM-2等PLM通过大规模无监督学习捕捉蛋白质序列的隐式语义表示，实现了从“序列相似性搜索”到“功能语义理解”的范式转变。HMD-AMP研究正是这一转变的典型代表：从3700万条预测序列到84%的验证阳性率，证明了PLM在突破远源AMP发现瓶颈方面的有效性。

“自然智慧+AI解码”的双轮驱动模式，正在产业与学术两个层面同步推进。在产业层面，佩德生物以2000+有毒动物物种和2亿条序列作为自然智慧的载体，以EvoPulse AI和干湿闭环作为AI解码的工具箱，已基本完成从建库到管线的全链条打通，并成功实现首条管线对外授权和四条核心管线的临床推进。在学术层面，2024-2026年间涌现的多个高影响力成果，为这一领域的规模化扩展提供了技术范式、数据资源和验证方法。

当然，挑战依然艰巨。数据规模和质量的进一步提升、远源序列的湿实验验证瓶颈、深度学习模型的可解释性、知识产权策略和毒理安全管理，都是需要持续攻关的方向。但趋势已经清晰：天然多肽暗物质的解码工作正在加速。未来十年，随着基因组测序通量持续提升、AI模型不断优化、自动化合成与筛选平台的成熟，更多源自毒液和微生物组的高价值多肽将从“暗物质”转化为新一代药物管线，为抗生素耐药、慢性疼痛、自身免疫病等未满足的临床需求提供源头创新的解决方案。

YM说多肽|智能多肽|进化密码破译者：AI驱动的毒液与微生物组多肽挖掘|南京肽业

产品中心

多肽合成|多肽定制

抗体制备|抗体定制

最新资讯

YM说多肽|智能多肽|进化密码破译者：AI驱动的毒液与微生物组多肽挖掘|南京肽业

进化密码破译者：AI驱动的毒液与微生物组多肽挖掘

摘要

第一章 绪论：为什么是毒液和微生物组？

1.1 天然多肽的两大“暗物质”来源

1.2 自然进化的“先行验证”：为什么天然多肽优于从头设计？

1.3 文章核心论点

第二章 天然毒液：自然进化的分子武器库

2.1 毒液的进化逻辑：为什么毒液多肽是理想的药物原型？

2.2 毒液多肽多样性的量化图景

2.3 毒液多肽挖掘的传统范式与局限

2.4 代表性工业实践：佩德生物的“天然多肽+AI”模式

2.4.1 公司定位与技术路线

2.4.2 天然多肽库建设：VCM平台

2.4.3 AI驱动：EvoPulse AI与干湿闭环

2.4.4 管线布局与商业验证

2.5 国际前沿案例：APEX模型与全球毒液组学挖掘

2.6 毒液挖掘的挑战与思考

第三章 微生物组：隐藏的抗菌肽宇宙

3.1 微生物组中多肽的生物合成潜力

3.2 传统方法的“序列相似性陷阱”

3.3 HMD-AMP：蛋白质语言模型驱动的远源AMP挖掘

3.3.1 研究背景与核心创新

3.3.2 从“序列比对”到“语义理解”的范式转变

3.3.3 3700万条候选序列与84%阳性率

3.3.4 结构趋同进化与体内药效验证

3.4 微生物组抗菌肽的进化起源与生态意义

第四章 蛋白质语言模型：解码多肽“暗物质”的技术基石

4.1 什么是蛋白质语言模型？

4.2 ESM-2的技术原理与在远源多肽识别中的优势

4.3 蛋白质语言模型在多肽挖掘中的其他应用

第五章 “自然智慧+AI解码”双轮驱动的产业图景

5.1 佩德生物作为“自然智慧+AI解码”的典型范例

5.2 国际研究格局与差异化路径

5.3 商业逻辑与可持续性

第六章 挑战、瓶颈与未来方向

6.1 数据规模与质量的持续挑战

6.2 远源序列的实验验证可行性

6.3 蛋白质语言模型的“黑箱”问题与可解释性

6.4 知识产权策略的差异化思考

6.5 未来展望：从“挖掘”走向“全流程自动化”

第七章 结论

YM说多肽|智能多肽|进化密码破译者：AI驱动的毒液与微生物组多肽挖掘|南京肽业

进化密码破译者：AI驱动的毒液与微生物组多肽挖掘

第一章绪论：为什么是毒液和微生物组？

第二章天然毒液：自然进化的分子武器库

第三章微生物组：隐藏的抗菌肽宇宙

第四章蛋白质语言模型：解码多肽“暗物质”的技术基石

第六章挑战、瓶颈与未来方向

第七章结论