中国科学家锻炼言语模型用于单细胞测序技术，助力破译肿瘤 ...

2022-12-8 11:39| 发布者: 挖安琥| 查看: 159| 评论: 0

摘要: 单细胞测序技术是生物医学范畴一颗冉冉的新星技术，是指经过测序技术从单个细胞中得到有关遗传的信息。在人体内，不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序（single-cell RNA seq ...

单细胞测序技术是生物医学范畴一颗冉冉的新星技术，是指经过测序技术从单个细胞中得到有关遗传的信息。

在人体内，不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序（single-cell RNA sequencing/ scRNA-seq）技术，则为科学家们提供了一种在单细胞水平完成基因表白观测的措施。

这一技术将有助于了解在不同条件下各种细胞的基因表白的差别等，其中包含肿瘤细胞，进而从细胞层面对肿瘤微环境、以及疾病停顿中止阐释，以至将助力完成“精准医疗”。

在单细胞 RNA 测序技术中，精确的细胞类型注释十分重要。目前，细胞类型注释的措施主要有三类：经过标记基因注释；经过基于相关性的措施中止注释；以及经过监视分类中止注释。

在这三种措施中，经过监视分类中止注释的措施相似于 AI 范畴机器学习的经典措施，即先经过基因表白谱中止方式学习和锻炼，并且在经过标记的数据集得到充沛锻炼之后，转移到未标记的数据集中止锻炼。

这种措施由于对噪点和数据可变性而有着良好的鲁棒性，再加上其具备独立于人工选择的标记基因，故在最近得到了普遍运用。

不外，该措施由于模型容量有限、且不可避免地会引入人为倾向，目前这类措施存在的对大范围数据集的欠拟合问题，不利于其普遍推行。

而最近，一组中国科研团队受大范围预锻炼模型 BERT 的经过预锻炼和微调范式来进步 AI 模型泛化性的启示，开发出了用于对 scRNA-seq 数据中止细胞注释的 scBERT（single-cell BERT）模型。

研讨人员经过让 scBERT 模型在大范围未标记 scRNA-seq 数据集上中止自我监视学习来进步其泛化性，来对 scBERT 模型中止考证。经过一系列基准测试，证明 scBERT 在细胞类型注释方面，有着良好的稳健性和精确性。

相关论文以《基于大范围预锻炼深度言语模型用于单细胞 RNA 测序中中止细胞类型注释的模型：scBERT》（scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data）为题，发表在 Nature Machine Intelligence。论文作者分别来自腾讯 AI 实验室和上海交通大学-耶鲁大学生物统计学与数据科学分离中心。

简单来说，scBERT 模型会对数百万个各种细胞类型的未标记 scRNA-seq 数据中止预锻炼，来学习有关 scRNA-seq 的基本学问。然后，经过简单地插入分类器、以及对由参考数据集监视的参数中止微调，来中止细胞类型的分配。

下图为 scBERT 的简图：首先，在自我监视的预锻炼阶段，也就是图中上部蓝绿色的 Self-supervised learning 部分，系统从 PanglaoDB 中搜集尚未标记的数据。

中国科学家锻炼言语模型用于单细胞测序技术，助力破译肿瘤 ... 图｜scBERT 模型中对未标记数据的自监视学习以及针对特定任务数据微调（来源：Nature Machine Intel

其中，系统会将掩蔽表白式嵌入和基因嵌入（Gene Embedding）作为输入添加，并将其输入到执行器块中，而重构器（reconstructor）则用于生成输出，掩蔽基因的输出则被用于计算重建损失。

在监视微调阶段，也就是图中粉色的 supervised finetuning 部分，特定任务的 scRNA-seq 数据，也会作为输入进入预锻炼的编码器中。之后，经过一维卷积层和分类器，来生成细胞类型预测作为输出。

另外，执行编码器（Performer Encoder）是在预锻炼阶段和微调阶段共享的组件。而重构器和分类器则在这两个阶段中彼此独立、分开运用。

在 scBERT 模型中，研讨人员采用了以下两点创新性的设计，使其在细胞类型标注任务中发挥出更强的才干。

第一，原始 BERT 的令牌嵌入是一个离散变量，而 scBERT 模型中的嵌入则是一个连续变量，代表了一个基因在单个细胞中的表白，这使其不只巧妙应用了基因的共同功用，关于噪声也有着更好的鲁棒性。

第二，此前的单细胞措施中，人们大多采用选择或基因操作的措施，来对原始数据中止预处置。这不可避免会带来人为倾向和过拟合问题，以至可能严重损伤其泛化性。scBERT 模型由于采用了转换器（Transformer），能够充沛有效应用 scRNA-seq 数据中的全局信息，并经过基因之间的相互作用中止学习，从而更全方位地控制每个细胞的全局信息。

为了对 scBERT 模型中止考证，研讨人员在涵盖 17 个主要器官/组织、50 多种细胞类型、超越 50 万个细胞和主流单细胞组学技术的 9 个 scRNA-seq 数据集上，对 scBERT 模型以及其他措施的性能中止了基准测试。

中国科学家锻炼言语模型用于单细胞测序技术，助力破译肿瘤 ...