Nature子刊重磅发布!昇思MindSpore使能全球首个亿级细胞大模型诞生
Nature子刊重磅发布!昇思MindSpore使能全球首个亿级细胞大模型诞生
中山大学、重庆大学等科研院所近日在《Nature Communications》发表开创性研究,正式推出基于昇思MindSpore AI框架与昇腾AI硬件训练的CellFM模型——全球首个预训练规模达1亿人类细胞的转录组学基础模型。这标志着AI技术在生命科学领域取得革命性突破。

# 01
攻克****单细胞研究三大难关
面对单细胞数据分析的噪声干扰、批次效应与数据稀疏性挑战,研究团队依托昇思MindSpore构建CellFM模型,实现对海量转录组数据的统一建模,为解码细胞异质性提供全新范式。

图1: 预训练的CellFM模型适用于多种单细胞下游分析,包括细胞类型注释、扰动预测、基因网络推断和基因功能预测。
在技术创新层面,CellFM通过三大核心突破构建了坚实的技术壁垒。首先,该模型实现了超大规模预训练,成功建成全球首个基于一亿人类细胞训练的转录组基础模型,参数量级突破八亿大关,创造了该领域新的技术标杆。其次,在模型架构方面进行关键革新:采用改进型RetNet框架作为基础结构,通过优化注意力机制显著提升特征提取能力,并开发出高效的数据处理流程以应对海量生物数据。再者,该模型展现了跨领域的卓越性能表现,包括高精度细胞类型注释能力、精准的扰动预测性能,以及对基因功能及其相互作用关系的深度解析能力,为多学科研究提供有力支持。

图2:a. CellFM框架概述。CellFM由嵌入模块、ERetNet模块和LoRA模块组成。b. 每层ERetNet模块集成了MHA、SGLU和LN单元。
作为生物医学领域的新型智能基础研究,CellFM正在构建多维应用价值体系。在基础研究方面,有力支撑细胞鉴定、细胞状态分析与基因调控网络研究等核心科研方向;在医学实践领域,服务于疾病发生机制解析、药物响应预测及个性化诊疗方案制定;在生物工程应用维度,有效赋能细胞改造工程、基因治疗技术创新与新药研发进程。
# 02
昇思MindSpore AI框架三大核心技术赋能
在高效分布式训练方面,昇思MindSpore通过自动并行策略实现对8亿参数规模的精准适配,结合数据并行、模型并行与流水线并行的多维协同优化机制,在保证开发灵活性的同时借助动静态图融合技术达成极致性能表现。
在智能内存管理领域,昇思MindSpore图算融合技术有效优化了内存资源占用,梯度聚合优化方案显著降低了分布式训练中的通信开销,配合可动态适配超大规模模型的自动化内存调度系统,共同构建起高效内存管理生态。
针对全链路性能优化,昇思MindSpore AI框架集成混合精度训练功能实现FP16与FP32精度的智能切换,依托算子融合引擎减少冗余内存访问操作,并通过多层次的图层编译优化策略全面提升计算效率。这三重技术体系形成紧密协同,为超大规模AI模型提供了坚实的底层支撑。
CellFM的成功实践充分验证了昇思MindSpore在使能生物大模型领域的技术领导力。未来,昇思MindSpore将持续助力科研团队推动模型进化,拓展多物种细胞支持范围、实现多组学数据融合分析、丰富下游任务应用场景以及持续优化模型计算效能。
访问昇思MindSpore官网,了解昇思MindSpore AI4S相关技术:
[参考文献:[Zeng, Y., et al. CellFM: a large-scale foundation model pre-trained on transcriptomics of 100 million human cells. Nature Communications 16, 4679 (2025)](https://doi.org/10.1038/s41467-025-59926-5)\]