STOmics logo 时空组学

EN

Nat Commun | Spatial-ID:通过迁移学习和空间嵌入进行空间高分辨转录组数据的细胞注释

2022.12.23 内容来源:华大时空

腾讯AI Lab 联合深圳华大生命科学研究院团队,开发了一种基于自监督学习的空间转录组(spatially resolved transcriptomics,SRT)细胞注释方法Spatial-ID(SPATIAL cell type IDentifification),它集成了迁移学习和空间嵌入策略。该方法通过迁移学习从已有的单细胞转录组数据集迁移单细胞表达谱知识。该方法通过嵌入空间信息,利用细胞在空间背景下与相邻细胞之间的可能存在的交互关系或共表达模式,提升细胞类型识别的准确性,且对来自不同测序技术的数据具有较强稳健性。此外,将Spatial-ID应用于先前通过华大自主研发的时空组学技术Stereo-seq获取的小鼠大脑数据集,证实了其对具有亚细胞空间分辨率的三维大视场组织的可扩展性,这为构建大视场空间转录组脑图谱提供了一个很有前景的途径。该文章在2022年12月10日发表于Nature Communications,以下是文章的详细解读。


截图

文章题目:Spatial-ID: A Cell Typing Method for Spatially Resolved Transcriptomics ViaTransfer Learning and Spatial Embedding

发表时间:2022-12-10

发表期刊:Nature Communications

主要研究团队:腾讯AI Lab、深圳华大生命科学研究院等

影响因子:17.694

DOI:10.1038/s41467-022-35288-0


研究背景

细胞类型注释是细胞和组织生物学的一项基本任务,可以帮助在单细胞水平上表征组织的生物学过程。该任务通常通过对scRNA-seq技术获取的数据进行单细胞转录组分析来执行。面对与测序技术相关的高维噪声数据呈指数级增长,需要能够有效降维且对数据噪声具有稳健性的高性能注释方法。对于能够提供空间信息的SRT数据,全面注释其细胞类型以了解单细胞水平的生物过程更具有挑战性。例如,基于spots的方法(Visium、Slide-seq、HDST和Stereo-seq等)从跨越多于(或少于)一个细胞的区域捕获RNA,而没有考虑细胞边界,这会给细胞注释引入细胞分割的困难。同时,转录检测灵敏度低或基因捕获率有限,亦会增加细胞类型注释的难度。


研究成果

1. Spatial-ID的工作原理

Spatial-ID有效整合了现有的参考scRNA-seq数据的知识和空间分辨转录组数据的空间信息。它的分析流程主要为3个阶段。阶段1为参考数据集的知识迁移;阶段2为基因表达谱和SRT数据集空间信息的特征嵌入,并采用自监督策略,通过阶段1中生成的伪标签来训练分类器;阶段3使用从阶段2导出的最优模型对SRT数据集进行细胞类型注释。


阶段1使用scRNA-seq数据集和从相似组织收集的定义明确的细胞类型基因特征来训练深度神经网络(deep neural network,DNN)模型(图1a)。通过预训练的DNN为SRT数据集的每个细胞生成概率分布,然后通过温度设置策略使用概率分布构建伪标签(图1b)。阶段2的图卷积网络(graph convolution network,GCN)包含一个自动编码器(对基因表达谱进行编码)、一个变分图自动编码器(嵌入空间信息)和一个分类器。给定一个SRT数据集,将基因表达谱转化为细胞-基因矩阵,将每个细胞作为一个节点,将细胞之间的空间位置关系作为边,构建空间邻域图,其中每对细胞的关系权重与欧氏(Euclidean)距离呈负相关(图1c、1d、1e)。同时,利用自监督学习策略采用最终的隐式表达Z和阶段1生成的伪标签L对分类器进行训练,训练过程优化GCN模型的参数直到收敛,并保存最优模型。阶段3(即推理阶段)从阶段2重新加载最优模型,并输出给定SRT数据集的细胞类型预测。

1

图1 Spatial-ID工作原理流程图


2. Spatial-ID在不同数据集中的应用及功能评价

  • 在MERFISH测量的小鼠初级运动皮层和下丘脑视前区数据集中的应用

研究人员通过定量比较了Spatial-ID和对照方法(Seurat v3、SingleR、Scmap、ScNym、SciBet、Tangram、Cell2location)分析MERFISH测量的小鼠初级运动皮层(MOP)数据集的性能(图2a)。其中,MOP数据集包含12个样本,包括总共280,186个细胞和254个基因。snRNA-seq10x v3B数据集(MOP数据集的匹配数据集)被用作Spatial-ID中DNN模型的训练集和对照方法中的参考数据集,包含159,738个细胞和31,053个基因。结果显示,与对照方法相比,Spatial-ID方法能有效地识别细胞类型(图2c)并获得更好的性能(图2f)。在所有12个MOP样本上,Spatial-ID达到了最高的平均准确率92.75%,显著优于对照方法。此外,Spatial-ID实现了平均加权F1分数为0.9209。为了验证Spatial-ID对不同基因丢失率数据集的稳健性,研究人员通过随机丢弃MOP数据集基因表达谱中的部分值来进行模拟实验,发现相同条件下,Spatial-ID较对照方法可以实现更好的细胞类型注释性能(图2j)。特别是在低丢失率下(小于0.6),Spatial-ID的性能下降小于最优对照方法。以上结果展示了Spatial-ID用于参考数据集中迁移知识的前景,即使它们的基因丢失率与新生成的数据集不同。


2

图2 Spatial-ID在MERFISH测量的小鼠初级运动皮层数据集中的应用


接下来,研究人员对Spatial-ID进行后处理,以进一步区分MOP数据集中出现但在snRNA-seq10x v3 B数据集中看不到的新细胞类型(如L4/5 IT和L6 IT Car3神经元),最终显示L4/5 IT和L6 IT Car3神经元的F1得分分别为0.405和0.904,被确定为新的细胞类型(图2k)。


为了定量比较Spatial-ID应用于3DSRT数据集的性能,研究人员使用MERFISH测量的小鼠下丘脑视前区(1.8 mm×1.8 mm×0.6 mm;图3a)数据集进行基准分析。该数据集包括从2只雌性小鼠和1只雄性小鼠中收集的总共213,192个细胞和155个基因(图3b);每个样本(Bregma 0.26~−0.29)包含12个切片,间隔为50µm。参考scRNA-seq数据集从成年雌性小鼠和雄性小鼠的3个重复的下丘脑视前区(2.5 mm×2.5 mm×1.1mm)收集,包括31,299个细胞和27,998个基因。结果显示,Spatial-ID的平均精度为87.74%(图3c、3e),达到了最高,显著优于对照方法;DNN在所有3个样本上达到了85.00%的平均准确率,这表明空间位置信息也有利于Spatial-ID对3D SRT数据集进行细胞注释。在3D视图中(图3d),研究人员观察到Spatial-ID的细胞类型分布与ground truth高度一致,这较对照方法具有明显的优势。此外,Spatial-ID获得了最高的平均加权F1分数0.8773。以上表明,Spatial-ID可以有效地应用于3D SRT数据集,与对照方法相比,其识别的细胞类型(图3f)显示出与ground truth更好的对应关系。


3

图3 Spatial-ID在MERFIS测量的小鼠下丘脑视前区数据集中的应用


  • 在Slide-seq测量的小鼠精子发生数据集中的应用

研究人员通过Slide-seq测量的小鼠精子发生数据集(图4a)对Spatial-ID进行基准分析。该数据集来自3只瘦素缺乏型糖尿病(ob/ob)小鼠和3只野生型(WT)小鼠,包括总共207,335个细胞和24,105个共同基因。参考scRNA-seq数据集包括来自成年小鼠睾丸的34,633个细胞和37,241个基因。Spatial-ID的注释结果见图4b。基于定量比较,证明了Spatial-ID对小鼠精子发生数据集中细胞类型的识别具有更高的准确性(图4c)。其中,Spatial-ID对6个样本的平均准确率均达到60.45%(图4c),平均加权F1得分为0.5500,与对照方法Cell2location(62.88%)相当。消融分析表明,DNN在所有6个样本上实现了58.27%的平均准确度,这再次说明了空间信息的重要性,表明Spatial-ID也可以有效地处理具有数万个基因的基于spots的Slide-seq数据集。同时,研究人员观察到野生型小鼠曲细精管的空间结构相对规则(图4d),而糖尿病小鼠曲细精管的空间结构不规则(图4e)。此外,研究人员比较了Spatial-ID和对照方法在该SRT数据集上的运行时间,发现Spatial-ID、ScNym和SciBet的运行效率远高于其他方法(图4f);进一步分析表明,随着细胞数量的增加,Spatial-ID的运行时间呈线性增加(图4g)。


4

图4 Spatial-ID在Slide-seq测量的小鼠精子发生数据集中的应用


  • 在人类NSCLC数据集中的应用

研究人员还在人类非小细胞肺癌(non-small-cell lung cancer,NSCLC)SRT数据集上对Spatial-ID进行了基准分析。该数据集是通过CosMxSMI平台从60岁以上患者的福尔马林固定石蜡包埋样本中获得的单个数据集Lung1-9,包含20个样本,包括总共83,621个细胞和980个基因。参考scRNA-seq数据集包括49,532个细胞和22,180个基因。结果显示,Spatial-ID在所有20个样本上达到了最高的平均精度69.76%(图5a),平均加权F1得分为0.6288。消融分析表明,DNN在所有20个样本上实现了68.09%的平均准确度。此外,研究人员观察到人类NSCLC数据集中的细胞类型以肿瘤细胞为主(图5b、5c)。值得说明的是,由于该数据集的某些细胞类型中细胞数量稀少,且细胞的ground truth标签在特征空间中难以区分,Spatial-ID遗漏了一些稀有的细胞类型(图5d),虽然后处理能够检索到2种遗漏的细胞类型(图5f~h),但可能需要测量更多的基因以进一步识别这些细胞类型。


5

图5 Spatial-ID在人类NSCLC数据集中的应用


  • 在Stereo-seq测量的大视野小鼠大脑半球数据集中的应用

随着空间分辨率的不断提高,新兴SRT技术Stereo-seq可以在亚细胞空间分辨率下产生大视野组织中大量细胞的高通量亚细胞SRT数据。本研究中,研究人员使用Stereo-seq生成了沿小鼠右脑半球前后轴的3个相邻冠状切片(10 μm厚,无间隔)的单细胞空间基因表达图谱(图6a),包括总共140,816个细胞。参考scRNA-seq数据集选用来自Linnarsson Lab的单细胞小鼠大脑细胞类型图谱。参考数据集中包含152种细胞类型和747个标记基因的113,488个细胞的子集被用作Spatial-ID的训练集。


基于Spatial-ID的预测,小鼠大脑的3个冠状切片的识别细胞类型呈现高度一致性(图6b),每个切片中平均99%的细胞被分配到它们共同的细胞类型。根据参考数据集的细胞类型分类,65,174个细胞(50.8%)被识别为兴奋性神经元,20,267个细胞(15.8%)被识别为抑制性神经元,42,840个细胞(33.4%)被识别为非神经元细胞类型(图6c)。具体而言,大多数已识别的兴奋性神经元是具有谷氨酸能神经递质(TEGLU)的端脑投射神经元,分布在大脑皮层和海马体中(图6e、6j、6k);其他具有谷氨酸能神经递质的兴奋性神经元(MEGLU、HBGLU)分布在中脑和后脑中。鉴定的抑制性神经元主要由TEINH19和MEINH8组成(图6i),其中TEINH19神经元分布在皮质层和海马CA3区域,MEINH8分布在中脑中。已识别的非神经元细胞分散分布在小鼠大脑半球中。


根据艾伦大脑图谱,整个小鼠右脑半球可以大致分为八个空间解剖功能区,包括同皮质区域、海马结构、嗅觉区、中脑、后脑、间脑、纤维束和血管系统。通过量化这些脑区域中的细胞,研究人员观察到不同的功能区域具有不同的已识别细胞类型组合(图6d)。此外,研究人员进一步说明了在VISp和AUD区域中沿着皮质深度从L2/3到L6的细胞连续梯度(图6e)。针对鉴定的主要细胞类型,研究人员进一步分析了参考数据集提供的典型标记基因的基因表达特异性(图6f),发现这些标记基因在相应的细胞类型中表达量最高,且比例也较高(图6g)。有趣的是,研究人员观察到ACNT2标记基因Slc6a11在非端脑星形胶质细胞的另一个亚类ACNT1中的表达高于ACNT2(图6g)。


研究人员进一步研究了表示底层细胞类型的空间变化基因,以及它们的分组空间模式。Hotspot总共检测到30个特定的空间基因模式,其中6个如图6h~k所示。值得注意的是,空间基因模式可能由来自单个已识别细胞类型的特定类型基因组成(图6h),但也可能由来自不同已识别细胞类型的区域特定基因组成。基于GO的富集结果表明,空间基因模式P26可能参与了中枢神经系统的髓鞘形成和轴突鞘,可能支持脾后皮质在空间编码、记忆形成和信息整合中的作用(图6l)。中脑中明显的空间基因模式P17(图6h),包含基因Ucn、Slc5a7、Chodl等,显著富集在中缝背核(dorsal raphe nucleus,DRN)的亚区域中。因此,已识别的MEGLU14神经元(标记基因:Cartpt、UcnChodl)专门富集于该区域中(图6h)。研究人员发现这些DRN特异性基因在轴突末端、神经元投射末端和轴突终扣高度富集(图6l),它们专门释放神经递质以在神经元之间传递脉冲。另一种空间基因模式P10出现在腹侧被盖区和黑质子区域(图6h),包含基因Slc6a3、Slc18a2、Th等。这种空间基因模式对应于已识别的MBDOP2神经元(标记基因:Slc6a3Chrna6),它们是中脑中的多巴胺能神经元,与神经精神疾病(如帕金森病)的遗传风险相关。进一步基于GO的富集结果表明,这些富集的基因可能参与神经递质水平的调控(图6l),揭示了MBDOP2基因表达之间的关系。此外,serval识别的空间基因模式并不代表特定的细胞类型,如P23(图6i)、P3(图6j)和P8(图6k)。其中,P23高度富集于腹侧中脑的脚间核(interpeduncular nucleus,IPN)中,由几个GABAergic神经元相关基因(如Otp、Pax7、Gad1、Gad2、Slc32a)组成,表明其对抑制神经元的代表性作用;P3高度富集于同皮质中(6j),这表明已识别皮质锥体神经元(TEGLU,如图6e所示),且在学习、记忆和认知方面显著丰富(图6l);P8参与阳性趋化性,主要由来自海马神经元DGGRC2和TEGLU23的基因构成(图6k)。


640 (4)

图6 Spatial-ID在Stereo-seq测量的大视野小鼠大脑半球数据集中的应用


结论

本研究中,研究人员开发出Spatial-ID,并以分子方式注释了SRT数据集的细胞类型。研究人员选用4个具有不同特征的公开SRT数据集,通过比较根据预测和ground truth计算的准确性和加权F1分数,发现在基准分析中,Spatial-ID的性能优于目前最优的细胞注释方法。与DNN的结果相比,确认空间信息在Spatial-ID中发挥重要作用。此外,Spatial-ID对基于3DFISH的SRT数据集(即小鼠下丘脑视前区)的分析,显示出其更好的性能,进一步证实该方法可以有效地应用于3DSRT数据集的细胞类型注释;基于FISH的SRT数据集(即小鼠初级运动皮层)的随机基因丢失模拟的比较,证明了Spatial-ID对基因丢失变化的较好稳健性。


与基于相关性的方法(Seurat v3、SingleR、Scmap和Cell-ID)和集成方法(Tangram、Cell2location)相比,Spatial-ID在所有SRT数据集上的运行效率更快。更重要的是,Spatial-ID在Stereo-seq测量的大视野小鼠大脑半球数据集中的应用,展示了其在构建大视野空间转录组脑图谱中的应用前景。



作者:沈荣波、Lina

ad','preload') })