然后,他们在一个主要由蛋白质序列、生物文本和标记化的3D结构数据组成的数据集上对其进行了进一步训练,这些元素是大多数蛋白质语言模型所忽略的。 团队继续对大部分训练数据进行了丰富化处理,为其增添了额外的上下文信息,如文本描述、共同进化的同源序列以及已知相互作用的蛋白质组合。 上述特性对于山中伸弥因子这类不稳定的蛋白质尤其有用,它们的结构不像稳定的积木,而像灵活的“软体动物”,通过与许多不同的分子进行短暂相互作用来产生效应。 在开发过程中,研究团队还观察到了与LLM中类似的scaling laws的出现——即在更大的数据集上训练的模型,在困惑度和下游蛋白质基准测试中的表现都有所提升。 在体外,这些重新设计的蛋白质比野生型对照组的干细胞重编程标志物表达量高出50倍以上。它们还表现出增强的DNA损伤修复能力,与基线相比显示出更高的恢复年轻状态的潜力。 这一发现是在2025年初做出的,现在已经在多个供体、细胞类型和递送方法中得到了验证,确认了衍生iPSC系的全多能性和基因组稳定性。 山中伸弥因子——OCT4、SOX2、KLF4和MYC(OSKM)是再生生物学中目前最重要的蛋白质之一,它们以发现这些因子能够将成年细胞重编程为多能干细胞的山中伸弥(Yamanaka Shin’ya)的名字命名,这一发现使他在2012年获得了诺贝尔生理学或医学奖。 但它们存在效率低下的问题:在治疗过程中,通常只有不到0.1%的细胞会转化,这个过程可能需要三周或更长时间。并且,在来自衰老或患病供体的细胞中,效率会进一步下降。 传统的“定向进化”筛选方法每次只能突变少数几个残基,只能探索设计空间中极小的一部分。一个领先学术团队测试了数千种SOX2突变体,发现少数几种三重突变体有适度提升,而15年来对嵌合SOX蛋白的研究仅产生了与天然SOX仅相差5个残基的变体。 Retro团队利用人类成纤维细胞(皮肤与结缔组织)构建了湿实验室筛选平台,在初步验证阶段,该团队通过手动设计的基准OSKM和SOX2变体进行试点筛选。 在筛选中,尽管模型提出的序列与野生型SOX2平均存在超过100个氨基酸差异,但其中超过30%的序列在表达关键多能性标志物方面表现更优。 基于RetroSOX的成功经验,研究团队引导模型生成一组增强型RetroKLF变体。最终,模型生成的变体中有14种表现优于RetroSOX筛选中的最佳组合方案——命中率接近50%。 在三次独立实验中,成纤维细胞早期标志物(SSEA-4)与晚期标志物(TRA-1-60、NANOG)的表达水平均呈现显著提升,其中晚期标志物的出现时间比野生型OSKM组合方案提前了几天。 此外,通过在第十天进行碱性磷酸酶(AP)染色验证,RetroSOX与RetroKLF变体不仅表达晚期多能性标志物,还表现出强效的AP活性,表明其具有多能性。 为进一步验证重编程效率的提升并探索其临床潜力,研究团队测试了另一种递送方法(mRNA而非病毒载体)以及另一种细胞类型——间充质干细胞(MSCs),这些细胞来自三位中年人类供体(年龄超过50岁)。 综合高命中率、深度序列编辑、标志物提前表达以及AP阳性细胞团形成等证据,初步表明AI指导的蛋白质设计能显著加速干细胞重编程研究进程。 受这些结果启发,研究团队接下来研究了他们重新设计的变体恢复青春的潜力,聚焦于DNA损伤这一导致细胞功能受损的典型衰老标志。 研究团队试图验证重新设计的变体是否相较于基准OSKM组合展现出更强的恢复青春的能力。结果显示,在DNA损伤检测中,经RetroSOX/KLF组合处理的细胞显示出的γ-H2AX强度(双链断裂标志物)显著低于使用标准OSKM或荧光对照的重编程细胞。 值得一提的是,OpenAI科学家Noam Brown表示,这一模型已经是几个月前的成果,现在的模型性能更强,预计未来一年左右会看到更多新成果。


