单细胞测序技术是生物医学范畴一颗冉冉的新星技术,是指经过测序技术从单个细胞中得到有关遗传的信息。 在人体内,不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序(single-cell RNA sequencing/ scRNA-seq)技术,则为科学家们提供了一种在单细胞水平完成基因表白观测的措施。 这一技术将有助于了解在不同条件下各种细胞的基因表白的差别等,其中包含肿瘤细胞,进而从细胞层面对肿瘤微环境、以及疾病停顿中止阐释,以至将助力完成“精准医疗”。 在单细胞 RNA 测序技术中, 精确的细胞类型注释十分重要。目前,细胞类型注释的措施主要有三类:经过标记基因注释;经过基于相关性的措施中止注释;以及经过监视分类中止注释。 在这三种措施中,经过监视分类中止注释的措施相似于 AI 范畴机器学习的经典措施,即先经过基因表白谱中止方式学习和锻炼,并且在经过标记的数据集得到充沛锻炼之后,转移到未标记的数据集中止锻炼。 这种措施由于对噪点和数据可变性而有着良好的鲁棒性,再加上其具备独立于人工选择的标记基因,故在最近得到了普遍运用。 不外,该措施由于模型容量有限、且不可避免地会引入人为倾向,目前这类措施存在的对大范围数据集的欠拟合问题,不利于其普遍推行。 而最近,一组中国科研团队受大范围预锻炼模型 BERT 的经过预锻炼和微调范式来进步 AI 模型泛化性的启示,开发出了用于对 scRNA-seq 数据中止细胞注释的 scBERT(single-cell BERT)模型。 研讨人员经过让 scBERT 模型在大范围未标记 scRNA-seq 数据集上中止自我监视学习来进步其泛化性,来对 scBERT 模型中止考证。经过一系列基准测试,证明 scBERT 在细胞类型注释方面,有着良好的稳健性和精确性。 相关论文以《 基于大范围预锻炼深度言语模型用于单细胞 RNA 测序中中止细胞类型注释的模型:scBERT》(scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data)为题,发表在 Nature Machine Intelligence。论文作者分别来自腾讯 AI 实验室和上海交通大学-耶鲁大学生物统计学与数据科学分离中心。 简单来说,scBERT 模型会对数百万个各种细胞类型的未标记 scRNA-seq 数据中止预锻炼,来学习有关 scRNA-seq 的基本学问。然后,经过简单地插入分类器、以及对由参考数据集监视的参数中止微调,来中止细胞类型的分配。 下图为 scBERT 的简图:首先,在自我监视的预锻炼阶段,也就是图中上部蓝绿色的 Self-supervised learning 部分,系统从 PanglaoDB 中搜集尚未标记的数据。
其中,系统会将掩蔽表白式嵌入和基因嵌入(Gene Embedding)作为输入添加,并将其输入到执行器块中,而重构器(reconstructor)则用于生成输出,掩蔽基因的输出则被用于计算重建损失。 在监视微调阶段,也就是图中粉色的 supervised finetuning 部分,特定任务的 scRNA-seq 数据,也会作为输入进入预锻炼的编码器中。之后,经过一维卷积层和分类器,来生成细胞类型预测作为输出。 另外,执行编码器(Performer Encoder)是在预锻炼阶段和微调阶段共享的组件。而重构器和分类器则在这两个阶段中彼此独立、分开运用。 在 scBERT 模型中,研讨人员采用了以下两点创新性的设计,使其在细胞类型标注任务中发挥出更强的才干。 第一,原始 BERT 的令牌嵌入是一个离散变量,而 scBERT 模型中的嵌入则是一个连续变量,代表了一个基因在单个细胞中的表白,这使其不只巧妙应用了基因的共同功用,关于噪声也有着更好的鲁棒性。 第二,此前的单细胞措施中,人们大多采用选择或基因操作的措施,来对原始数据中止预处置。这不可避免会带来人为倾向和过拟合问题,以至可能严重损伤其泛化性。scBERT 模型由于采用了转换器(Transformer),能够充沛有效应用 scRNA-seq 数据中的全局信息,并经过基因之间的相互作用中止学习,从而更全方位地控制每个细胞的全局信息。 为了对 scBERT 模型中止考证,研讨人员在涵盖 17 个主要器官/组织、50 多种细胞类型、超越 50 万个细胞和主流单细胞组学技术的 9 个 scRNA-seq 数据集上,对 scBERT 模型以及其他措施的性能中止了基准测试。
图|对 scBERT 模型以及其他模型中止基准测试和稳健性评价的结果(来源:Nature Machine Intelli 结果显现,scBERT 模型在精确性、稳健型等各方面,都优于当前其他同类模型的表示。
|