蛋白序列很多，真正能用的折叠可能没那么多

核心摘要 Summary

Ligo 研究团队在扩展蛋白结构训练数据时发现，自然蛋白序列规模很大，但可复用的折叠结构高度冗余。
我的判断是，生物生成模型下一轮竞争不会只看谁折叠更多序列，而会转向谁能更干净地切分结构、去掉噪声、抓住任务相关信号。

内容导图 Mind Map

折叠冗余

序列多不等于结构新

反常发现

低相似序列共享折叠

规模落差

可复用结构或仅数万级

口径差异

结构单元定义影响结果

数据清洗

有效训练单元被重定

噪声来源

尾巴与linker易误导

切分方法

按置信度与接触拆域

扩展换挡

从堆序列转向取信号

仍有收益

局部几何和约束有价值

新分水岭

去冗余能力更关键

产业影响

样本量护城河变浅

受影响者

酶与抗体设计团队

验证压力

最终仍靠湿实验

一个反常点很扎眼：自然界给了我们海量蛋白序列，但这些序列折出来的形状，可能远没有数字看上去那么丰富。

Ligo 在训练酶设计模型时想走一条很自然的路：把更多天然序列用结构预测模型折成 3D 结构，再喂给生成模型。结果他们发现，低序列相似度的蛋白，仍然可能共享同一类折叠。序列多样性，不等于结构多样性。

这事会影响一批人：做酶设计、抗体设计、蛋白结构生成模型的团队，尤其是依赖大规模自然序列蒸馏数据的公司和实验室。

序列宇宙很大，折叠宇宙没那么大

过去几年，生物 AI 的扩展路线很像大模型：模型更大，算力更多，数据更广。AlphaFold3 把生物分子相互作用预测往前推了一大步，Chai-2、Latent-X2、Nabla 也在抗体、生物药设计上展示了生成式模型的野心。

关键做法之一，是把基因组和宏基因组里的海量序列，转成预测结构。MGnify 这类数据库里有大量来自未培养微生物的序列，看上去像一座矿山。

但矿山里未必全是新矿。

Ligo 提到一个对比：Foldseek 曾用快速聚类方法报告 AlphaFold Database 里有约 230 万个非单例结构簇；而 Ligo 在当前分析和结构单元口径下认为，可复用的结构邻域更接近数万级，大约 2.5 万。

这不是说 Foldseek 错了，也不是说蛋白折叠总数已经被盖棺定论。差别来自口径：预测结构有尾巴、无序区、连接肽、多结构域相对位置问题；你把什么当成一个“结构单元”，结果会差很多。

项目	表面数字	真正问题
天然序列	数十亿级	很多只是同一折叠的变体
Foldseek 快速聚类	AFDB 约 230 万非单例簇	受预测结构噪声和聚类口径影响
Ligo 当前分析	可复用结构邻域约 2.5 万	强调切分后更干净的训练单元

一句话：数据不是没有了，是“新结构信号”的边际收益变小了。

真正难的是把蛋白切干净

预测结构和实验晶体结构不一样。AlphaFold 会给整条链一个预测：有序结构域、柔性尾巴、长 linker、信号肽、多结构域蛋白，全在里面。

如果直接拿整条链聚类，模型会学到很多不该学的东西：飘出去的尾巴、被 linker 勉强连在一起的结构域、没有明确生物学意义的相对位置。

Ligo 的做法更像外科手术。

先按 pLDDT 去掉低置信残基。保留高置信片段后，再用空间接触把真正贴在一起的部分合回来。但这还不够，因为有些 linker 置信度也很高，却不该把两个结构域绑成一个训练样本。

所以他们把蛋白看成图：残基是节点，空间邻近关系是边。再用谱二分和 Fiedler vector 找图里的“窄桥”，把高置信但不该合并的结构域切开。

这个技术点很重要。生物模型的数据清洗，已经不是简单过滤低质量样本，而是在重新定义什么叫一个有效训练单元。

我的判断：扩展路线开始换挡

我不太买账的是那种简单叙事：只要继续折叠更多自然序列，生物生成模型就会自然变强。

这条路当然还有收益。更多序列仍能提供表面化学、家族变体、局部几何和进化约束。尤其在抗体-抗原、药物样分子、酶活性口袋这类任务里，数据覆盖面仍然值钱。

但分水岭变了。

以前大家比的是谁有更多序列、更多预测结构、更多算力。接下来更像比谁能把自然界的冗余拆干净：哪些结构是真正独立的，哪些只是同一折叠换了序列外衣；哪些残基是任务信号，哪些只是预测模型给出的漂亮噪声。

“天下熙熙，皆为利来。”放在这里，利不是商业利润，而是训练信号。谁能从一堆相似折叠里榨出更高密度的可设计信息，谁才有机会把生成模型从会画结构，推到会做功能。

这也给 AI 制药公司提了个醒：堆数据库截图和样本量，越来越像早期互联网公司炫 PV。数字很大，但护城河未必深。真正难的是数据定义、结构切分、去噪策略，以及最后能不能落到湿实验验证。

生物 AI 没失败，AlphaFold3 也没有被这件事否定。相反，这说明行业正在从“能不能预测结构”，进入“哪些结构值得训练、值得设计、值得下注”的阶段。

蛋白序列的海很大。可模型真正能喝进去的，是过滤后的那几口水。

锐评 Commentary

多不等于新，大不等于强。生物 AI 的下一刀，要落在冗余里取真。

蛋白结构预测蛋白折叠生物生成模型Ligo蛋白序列结构冗余酶设计AlphaFold3抗体设计MGnify