STOmics logo 时空组学

EN

CellBinDB:大规模多模态数据集助力细胞分割模型开发与评估

2024.11.25 内容来源:华大时空

高通量空间组学技术是现代分子生物学的前沿利器,有望攻克过往无法解决的生物学问题,并通过保留组织结构更好地理解细胞间相互作用。这些超高分辨率的基因表达谱包含细胞核、质或细胞间信号混合物,为单细胞信息提取带来巨大挑战[1]。当前相对成熟的解决方案是借助含组织捕获芯片的染色影像图(如H&E, DAPI等),通过自动化的细胞分割方案拿到芯片上组织相同位置的单细胞基因表达矩阵。 


在此,华大推出了CellBinDB[2],一个包含STOmics(Stereo-seq)和10x Genomics平台染色图像的混合人工标注数据集,同时评估了主流的细胞分割模型在该数据集上的表现,分析了分割效果影响因素,为研究人员提供不同场景下的使用推荐,以辅助获取准确的单细胞表达矩阵。同时,该数据集是多模态、多样本的大规模细胞分割数据集,可以为细胞分割算法,特别是多模态的通用细胞分割模型研究提供有力的支持。该数据集已在bioRxiv预印发表。


微信图片_20241126145358

预印文章页面截图


CellBinDB介绍

CellBinDB(CellBin Data Base)是一个包含1,044张图像的大规模数据集,涵盖了STOmics(Stereo-seq)产品线的四种染色类型:DAPI、ssDNA、H&E 和 mIF(图1a)。


  • DAPI:一种荧光细胞核染色,常应用于DNA的可视化;

  • ssDNA:通常用于检测细胞内存在的单链DNA,常用于评估细胞凋亡和DNA损伤;

  • H&E:一种常用的组织染色技术,用于病理学中的组织结构观察;

  • mIF:多重免疫荧光染色技术通过使用多种不同的荧光标记抗体同时标记多个目标蛋白,常用于组织切片中不同分子标记的空间定位分析。


这些图像来自35种正常及疾病组织类型(图1b),涉及人类和小鼠样本。其中,844张小鼠图像由华大团队基于Stereo-seq技术产出,200张人类图像来自10x Genomics平台。研究团队采用全手动和半自动化注释方式,提供了语义和实例两种标注类型的mask。图1c提供了数据集图像和注释示例。

微信图片_20241126145431

图1 CellBinDB简介 a.染色类型分布 b.组织类型分布(图像数量少于10张的组织类型合计为others) c.显微镜图像和两种类型(语义和实例)注释示例


如表1所示,与过往发表的染色细胞图像数据集相比,CellBinDB能同时满足大规模、多种染色技术、多种组织类型,符合通用模型的开发需求。


表1 CellBinDB与以前发表的数据集对比

微信图片_20241126145500


为了直观了解CellBinDB数据集特征的多样性,研究团队通过T-SNE降维技术可视化了它与其他数据集的图像特征。结果显示,ssDNA和DAPI染色类型的特征相似,而来自不同来源的同一染色类型图像(如H&E)间有显著差异(图2a)。与其他数据集相比,CellBinDB展现了更广泛的特征分布,涵盖了大多数公共数据集的特征(图2b)。


微信图片_20241126145525

图2 a.CellBinDB内不同染色类型和来源的数据的多样化分布 b.CellBinDB 与以前的数据集相比的多样性


基于CellBinDB的细胞分割模型评估

本次评估了六个广泛使用的深度学习细胞分割模型:Cellpose1[3]、Cellpose3[4]、DeepCell[5]、MEDIAR[6]、StarDist[7]和SAM[8],以及一个基于机器学习的细胞分割软件CellProfiler[9]。


CellBinDB多模态数据集上的模型性能评估结果如图3a所示,除了Cellprofiler和Deepcell,其余五种模型表现均较为出色,特别是Cellpose3最为推荐。


影响细胞分割模型分割结果的因素

为了帮助研究人员更好的根据数据特征选择合适的细胞分割模型,研究团队探究了染色类型、细胞形态及图像质量三个因素对细胞分割模型结果的影响。


01 染色类型

每种染色类型上的细胞分割难度不同,不同细胞分割模型擅长的图像类型也不同。

  • DAPI和ssDNA染色图像:如图3b,c所示,大多数模型在这两种染色类型上表现较好,其中Cellpose1、DeepCell和MEDIAR表现最好。各模型分割结果示例见图3f,g;

  • H&E染色图像:如图d所示,StarDist、SAM和Cellpose3表现优异,而其他模型则表现较差或完全失败。CellProfiler和DeepCell几乎无法分割,主要原因为无法准确区分前景和背景(图3h);

  • mIF染色图像:如图e所示,Cellpose1、Cellpose3和MEDIAR在mIF图像上的表现最佳,能较好地区分细胞膜和细胞内部,而其他模型或未能有效分割细胞,或将发亮的细胞膜误解为细胞内部(图3i)。

微信图片_20241126145808

图3 a.整体数据集上的评估结果 b-e.分别在DAPI、ssDNA、H&E、mIF染色图像上的评估结果 f-h.各个模型在上述四种染色类型图片上的分割效果示例


从以上结论可看出,H&E和mIF染色图像上的细胞分割更具挑战性。主要原因为部分模型在训练阶段没有充分学习到这两种染色的图像特征,无法正确区分细胞与背景。因此建议添加预处理步骤,将H&E图像转换为灰度图像并反转颜色,将mIF染色图像进行颜色反转(图4j),使图像特征更接近大多数模型都擅长的荧光染色图像。如图4k-n所示,添加预处理后,模型性能显著提升。

微信图片_20241126145831

图4 j.预处理流程 k-l.H&E染色图像添加预处理过程前后F1得分对比和结果示例 m-n.mIF染色图像添加预处理过程前后F1得分对比和结果示例


02 细胞形态

如图5所示,研究团队分析了细胞形态对分割效果的影响。结果表明细胞面积越大、细胞间距离越远、细胞圆度和致密性越高,模型的分割性能也越好。这里荧光染色和H&E染色分别以Cellpose1和StarDist为例,其他模型上也有相同的结论,详情可查阅CellBinDB预印文章[2]

微信图片_20241126145855

图5 a.荧光染色图像(DAPI和ssDNA,以Cellpose1为例),四个细胞形态学指标(cellArea,averageDistance,cellCircularity,cellCompactness)与F1分数的显著性分析 b.H&E染色图像(以StarDist为例) c-d.模型分割结果示例


细胞形态与组织类型密切相关。研究团队根据组织类型对CellBinDB中的图像进行了分类,并计算了上述四个细胞形态指标,随后对其进行了归一化处理(图6)。结果显示了不同组织类型的细胞分割难度,例如小肠、神经节和舌头等组织的细胞分割将面临更大的挑战。


微信图片_20241126145915

图6 按组织类型分类的四个细胞形态学指标的标准化分数


03 图像质量

同时,研究团队发现图像的质量中,细胞前景背景的灰度差对分割效果的影响显著。通过Sobel算子计算图像梯度,并分析其与F1分数的关系,结果如图7所示,大多数模型在高梯度细胞图像上表现更好,而在低梯度图像上性能明显下降。这说明,高梯度图像有助于模型更准确地定位细胞边界

微信图片_20241126145939

图7 a-c.细胞图像梯度与F1分数的关系,箱线图纵轴为F1值,横轴为按细胞梯度三分位数将样本分为低、中、高三组,三张图分别是在DAPI、ssDNA、H&E图像上的结果


研究团队对ssDNA 图像应用不同程度的高斯模糊以降低图像梯度进行了模拟实验,结果与上述结论一致。


微信图片_20241126145959

图8 不同梯度图像上的模拟实验结果


通过以上实验,可看出图像质量对模型分割结果的影响,光学系统本身的限制、样品制备过程以及成像条件的不确定性会造成图像噪声、模糊,影响图像梯度。因此,建议实验室人员认真参考实验操作说明书,为下游提供更高质量的图像数据,将获得更好的细胞分割结果。


基于空间组学技术的图像数据集CellBinDB的发布,为开发通用细胞分割模型提供了珍贵的图像资源。未来,CellBinDB在细胞分割领域的广泛应用,将促进细胞分割通用模型的发展,助力研究人员获得更精确的单细胞表达图谱,从而共同推动生命科学领域的创新与进步。


CellBinDB预印文章链接:https://www.biorxiv.org/content/10.1101/2024.11.20.619750v1[2]


细胞分割测评讲解视频

华大自主研发的CellBin包(https://github.com/STOmics/cellbin2),包含了图像细胞分割模块,我们也将其加入了分割效果评测,具体结果可点击下方视频查看。