Science | 跨越15亿年进化!TranscriptFormer生成式细胞图谱,解锁生命通用细胞法则

Science | 跨越15亿年进化!TranscriptFormer生成式细胞图谱,解锁生命通用细胞法则

· json · rss

About

单细胞转录组技术极大推动了细胞多样性解析,但在生命之树尺度开展跨物种转录程序比较仍面临关键瓶颈。传统整合分析高度依赖直系同源基因匹配,远缘物种间同源基因数量有限,难以支撑大范围比较。现有单细胞基础模型多不具备生成能力,需针对任务微调,且多数仅适用于人或小鼠等少数物种,无法覆盖漫长演化历程中细胞特征的保守性与变异性。


近日,Chan Zuckerberg Initiative与斯坦福大学Stephen R. Quake、Theofanis Karaletsos团队在Science发表题为TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution的研究。研究团队开发出TranscriptFormer,一套在1.12亿个细胞上训练、覆盖12个物种、横跨15.3亿年进化史的生成式单细胞基础模型,在跨物种细胞类型分类、零样本疾病状态识别、发育轨迹推演、系统发育关系解析等任务上实现领先性能,证明细胞组织的通用原理可被 AI 跨物种学习与预测,为定量单细胞分析与比较细胞生物学建立了全新框架。



TranscriptFormer采用生成式自回归Transformer结构,将细胞转录组视为连续的基因序列,依次预测基因身份与表达水平,联合建模基因与表达计数的概率分布。研究构建了三种演化覆盖梯度的模型,TF‑Metazoa包含脊椎动物、无脊椎动物、真菌与原生生物共12个物种,覆盖15.3亿年演化;TF‑Exemplar包含人与四种模式生物;TF‑Sapiens仅以人细胞作为对照。模型核心改进包括表达量感知的多头自注意力机制,可依据表达强度动态调整基因贡献;整合ESM‑2蛋白嵌入实现跨物种统一基因表示,摆脱直系同源基因依赖;设置基因预测与表达计数双解码分支,同步输出细胞嵌入与上下文基因嵌入,支持条件化生成与虚拟生物学分析。


在跨远缘物种细胞类型分类测试中,研究团队选用模型从未见过的狐猴、热带爪蟾、七鳃鳗、石珊瑚进行评估。结果显示,TF-Metazoa和TF-Exemplar在与人类分化6.85亿年的石珊瑚上仍保持F1>0.65的稳定表现,显著优于当前主流模型UCE和基线模型ESM2-CE,充分证明多物种预训练能够大幅提升跨超大进化距离的泛化能力。在跨物种注释迁移任务中,模型在精子发生、灵长类前额叶皮层、LPS诱导炎症免疫应答等多个系统中均表现出色,近缘物种间注释迁移准确率高,远缘物种之间也能保持可靠预测,清晰呈现出保守的转录响应模式。


在人类细胞状态预测方面,TranscriptFormer同样表现突出。在Tabula Sapiens 2.0 细胞类型分类任务中,TF-Exemplar达到0.910的宏观F1值,在髓系白细胞、T细胞、固有淋巴细胞等难以区分的细胞类型上优势明显。在疾病状态识别中,针对新冠感染和胶质母细胞瘤的预测精度全面超越scGPT、Geneformer等模型。在药物扰动检测中,模型在95种化合物测试中平均AUC达到0.879,多项药物接近完美分类,能够精准捕捉药物引发的细微转录变化。


TranscriptFormer在无任何细胞类型、发育阶段、进化关系标注的情况下,能够自发涌现出多层次的生物学结构。上下文基因嵌入显示细胞类型信息贡献超过95%的方差,同时保留组织和个体供体差异。细胞嵌入能够准确重现精子发生的分化轨迹,物种间的嵌入相似度与进化距离呈现强相关性。跨物种细胞匹配结果显示,斑马鱼、爪蟾、兔之间保守匹配神经元、内皮、免疫、造血等关键细胞谱系;海绵领细胞对应到两侧对称动物的初级感觉神经元,为神经系统起源假说提供支持;酵母细胞状态与多种动物胚胎祖细胞高度相似,提示跨界存在保守的祖细胞程序。


依托生成式能力,TranscriptFormer还可作为“虚拟生物学仪器”使用。通过点互信息计算,模型能够准确预测转录因子与靶基因的相互作用,结果与经典数据库高度吻合。在细胞类型条件生成任务中,模型重现了人类112种细胞类型的转录因子表达谱,呈现出广谱调控因子的垂直分布带和细胞类型特异因子的对角线特征,与实验观测结果高度一致。


这项研究以大模型、大进化尺度、大细胞数据集三位一体,首次证明生成式AI可以直接捕捉生命共通的细胞组织原理,不依赖同源基因即可实现跨15亿年进化的单细胞统一分析,既是单细胞组学与人工智能交叉领域的里程碑,也为比较生物学、进化发育生物学、系统医学提供了统一的数字细胞框架。TranscriptFormer的出现,标志着单细胞基础模型正式进入跨物种、生成式、可交互的全新阶段,未来在扩充物种覆盖、融合多组学模态、优化提示策略后,有望构建覆盖全生命之树的单细胞生成模型,为病毒宿主研究、药物开发、进化机制解析提供更强力的工具。


研究同时存在一定局限,模型在批次效应整合、零样本扰动预测方面仍有提升空间,未来需要进一步优化数据整合策略并拓展功能边界。


原文链接:https://www.science.org/doi/10.1126/science.aec8514

来源: BioArt微信公众号