一个反常点很扎眼:自然界给了我们海量蛋白序列,但这些序列折出来的形状,可能远没有数字看上去那么丰富。

Ligo 在训练酶设计模型时想走一条很自然的路:把更多天然序列用结构预测模型折成 3D 结构,再喂给生成模型。结果他们发现,低序列相似度的蛋白,仍然可能共享同一类折叠。序列多样性,不等于结构多样性。

这事会影响一批人:做酶设计、抗体设计、蛋白结构生成模型的团队,尤其是依赖大规模自然序列蒸馏数据的公司和实验室。

序列宇宙很大,折叠宇宙没那么大

过去几年,生物 AI 的扩展路线很像大模型:模型更大,算力更多,数据更广。AlphaFold3 把生物分子相互作用预测往前推了一大步,Chai-2、Latent-X2、Nabla 也在抗体、生物药设计上展示了生成式模型的野心。

关键做法之一,是把基因组和宏基因组里的海量序列,转成预测结构。MGnify 这类数据库里有大量来自未培养微生物的序列,看上去像一座矿山。

但矿山里未必全是新矿。

Ligo 提到一个对比:Foldseek 曾用快速聚类方法报告 AlphaFold Database 里有约 230 万个非单例结构簇;而 Ligo 在当前分析和结构单元口径下认为,可复用的结构邻域更接近数万级,大约 2.5 万。

这不是说 Foldseek 错了,也不是说蛋白折叠总数已经被盖棺定论。差别来自口径:预测结构有尾巴、无序区、连接肽、多结构域相对位置问题;你把什么当成一个“结构单元”,结果会差很多。

项目表面数字真正问题
天然序列数十亿级很多只是同一折叠的变体
Foldseek 快速聚类AFDB 约 230 万非单例簇受预测结构噪声和聚类口径影响
Ligo 当前分析可复用结构邻域约 2.5 万强调切分后更干净的训练单元

一句话:数据不是没有了,是“新结构信号”的边际收益变小了。

真正难的是把蛋白切干净

预测结构和实验晶体结构不一样。AlphaFold 会给整条链一个预测:有序结构域、柔性尾巴、长 linker、信号肽、多结构域蛋白,全在里面。

如果直接拿整条链聚类,模型会学到很多不该学的东西:飘出去的尾巴、被 linker 勉强连在一起的结构域、没有明确生物学意义的相对位置。

Ligo 的做法更像外科手术。

先按 pLDDT 去掉低置信残基。保留高置信片段后,再用空间接触把真正贴在一起的部分合回来。但这还不够,因为有些 linker 置信度也很高,却不该把两个结构域绑成一个训练样本。

所以他们把蛋白看成图:残基是节点,空间邻近关系是边。再用谱二分和 Fiedler vector 找图里的“窄桥”,把高置信但不该合并的结构域切开。

这个技术点很重要。生物模型的数据清洗,已经不是简单过滤低质量样本,而是在重新定义什么叫一个有效训练单元。

我的判断:扩展路线开始换挡

我不太买账的是那种简单叙事:只要继续折叠更多自然序列,生物生成模型就会自然变强。

这条路当然还有收益。更多序列仍能提供表面化学、家族变体、局部几何和进化约束。尤其在抗体-抗原、药物样分子、酶活性口袋这类任务里,数据覆盖面仍然值钱。

但分水岭变了。

以前大家比的是谁有更多序列、更多预测结构、更多算力。接下来更像比谁能把自然界的冗余拆干净:哪些结构是真正独立的,哪些只是同一折叠换了序列外衣;哪些残基是任务信号,哪些只是预测模型给出的漂亮噪声。

“天下熙熙,皆为利来。”放在这里,利不是商业利润,而是训练信号。谁能从一堆相似折叠里榨出更高密度的可设计信息,谁才有机会把生成模型从会画结构,推到会做功能。

这也给 AI 制药公司提了个醒:堆数据库截图和样本量,越来越像早期互联网公司炫 PV。数字很大,但护城河未必深。真正难的是数据定义、结构切分、去噪策略,以及最后能不能落到湿实验验证。

生物 AI 没失败,AlphaFold3 也没有被这件事否定。相反,这说明行业正在从“能不能预测结构”,进入“哪些结构值得训练、值得设计、值得下注”的阶段。

蛋白序列的海很大。可模型真正能喝进去的,是过滤后的那几口水。