名表交流网 首页 名表图片鉴赏 积家 查看内容

中国科学家锻炼言语模型用于单细胞测序技术,助力破译肿瘤 ...

2022-12-8 11:39| 发布者: 挖安琥| 查看: 159| 评论: 0

摘要: 单细胞测序技术是生物医学范畴一颗冉冉的新星技术,是指经过测序技术从单个细胞中得到有关遗传的信息。在人体内,不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序(single-cell RNA seq ...

中国科学家锻炼言语模型用于单细胞测序技术,助力破译肿瘤 ...


单细胞测序技术是生物医学范畴一颗冉冉的新星技术,是指经过测序技术从单个细胞中得到有关遗传的信息。


在人体内,不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序(single-cell RNA sequencing/ scRNA-seq)技术,则为科学家们提供了一种在单细胞水平完成基因表白观测的措施。


这一技术将有助于了解在不同条件下各种细胞的基因表白的差别等,其中包含肿瘤细胞,进而从细胞层面对肿瘤微环境、以及疾病停顿中止阐释,以至将助力完成“精准医疗”。


在单细胞 RNA 测序技术中, 精确的细胞类型注释十分重要。目前,细胞类型注释的措施主要有三类:经过标记基因注释;经过基于相关性的措施中止注释;以及经过监视分类中止注释。


在这三种措施中,经过监视分类中止注释的措施相似于 AI 范畴机器学习的经典措施,即先经过基因表白谱中止方式学习和锻炼,并且在经过标记的数据集得到充沛锻炼之后,转移到未标记的数据集中止锻炼。


这种措施由于对噪点和数据可变性而有着良好的鲁棒性,再加上其具备独立于人工选择的标记基因,故在最近得到了普遍运用。


不外,该措施由于模型容量有限、且不可避免地会引入人为倾向,目前这类措施存在的对大范围数据集的欠拟合问题,不利于其普遍推行。


而最近,一组中国科研团队受大范围预锻炼模型 BERT 的经过预锻炼和微调范式来进步 AI 模型泛化性的启示,开发出了用于对 scRNA-seq 数据中止细胞注释的 scBERT(single-cell BERT)模型。


研讨人员经过让 scBERT 模型在大范围未标记 scRNA-seq 数据集上中止自我监视学习来进步其泛化性,来对 scBERT 模型中止考证。经过一系列基准测试,证明 scBERT 在细胞类型注释方面,有着良好的稳健性和精确性。


相关论文以《 基于大范围预锻炼深度言语模型用于单细胞 RNA 测序中中止细胞类型注释的模型:scBERT》(scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data)为题,发表在 Nature Machine Intelligence。论文作者分别来自腾讯 AI 实验室和上海交通大学-耶鲁大学生物统计学与数据科学分离中心。


简单来说,scBERT 模型会对数百万个各种细胞类型的未标记 scRNA-seq 数据中止预锻炼,来学习有关 scRNA-seq 的基本学问。然后,经过简单地插入分类器、以及对由参考数据集监视的参数中止微调,来中止细胞类型的分配。


下图为 scBERT 的简图:首先,在自我监视的预锻炼阶段,也就是图中上部蓝绿色的 Self-supervised learning 部分,系统从 PanglaoDB 中搜集尚未标记的数据。

中国科学家锻炼言语模型用于单细胞测序技术,助力破译肿瘤 ...图|scBERT 模型中对未标记数据的自监视学习以及针对特定任务数据微调(来源:Nature Machine Intel


其中,系统会将掩蔽表白式嵌入和基因嵌入(Gene Embedding)作为输入添加,并将其输入到执行器块中,而重构器(reconstructor)则用于生成输出,掩蔽基因的输出则被用于计算重建损失。


在监视微调阶段,也就是图中粉色的 supervised finetuning 部分,特定任务的 scRNA-seq 数据,也会作为输入进入预锻炼的编码器中。之后,经过一维卷积层和分类器,来生成细胞类型预测作为输出。


另外,执行编码器(Performer Encoder)是在预锻炼阶段和微调阶段共享的组件。而重构器和分类器则在这两个阶段中彼此独立、分开运用。


在 scBERT 模型中,研讨人员采用了以下两点创新性的设计,使其在细胞类型标注任务中发挥出更强的才干。


第一,原始 BERT 的令牌嵌入是一个离散变量,而 scBERT 模型中的嵌入则是一个连续变量,代表了一个基因在单个细胞中的表白,这使其不只巧妙应用了基因的共同功用,关于噪声也有着更好的鲁棒性。


第二,此前的单细胞措施中,人们大多采用选择或基因操作的措施,来对原始数据中止预处置。这不可避免会带来人为倾向和过拟合问题,以至可能严重损伤其泛化性。scBERT 模型由于采用了转换器(Transformer),能够充沛有效应用 scRNA-seq 数据中的全局信息,并经过基因之间的相互作用中止学习,从而更全方位地控制每个细胞的全局信息。


为了对 scBERT 模型中止考证,研讨人员在涵盖 17 个主要器官/组织、50 多种细胞类型、超越 50 万个细胞和主流单细胞组学技术的 9 个 scRNA-seq 数据集上,对 scBERT 模型以及其他措施的性能中止了基准测试。

中国科学家锻炼言语模型用于单细胞测序技术,助力破译肿瘤 ...

图|对 scBERT 模型以及其他模型中止基准测试和稳健性评价的结果(来源:Nature Machine Intelli


结果显现,scBERT 模型在精确性、稳健型等各方面,都优于当前其他同类模型的表示。

中国科学家锻炼言语模型用于单细胞测序技术,助力破译肿瘤 ...

中国科学家锻炼言语模型用于单细胞测序技术,助力破译肿瘤 ...



路过

雷人

握手

鲜花

鸡蛋
已有 0 人参与

会员评论

 名表回收网手机版

官网微博:名表回收网服务平台

今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
返回顶部