STOmics logo 时空组学

EN

多组学多模态TB级数据高效分析,一文读懂时空组学数据分析工具SAW

2024.03.07 内容来源:华大时空

近日,华大生命科学研究院在《GigaScience》及《GigaByte》期刊,以专题形式发布了时空组学算法工具系列成果。新工具采用先进的统计技术和算法,可对高维度和复杂结构的时空组学数据进行有效地处理,助力其深入理解生物系统结构和功能。


其中,能充分、高效地分析时空组学产生的庞大而多维的数据集的工具SAW (Stereo-seq Analysis Workflow)备受关注。在此,华大时空组学特邀时空软件产品经理对该工具进行详细解读。


此外,以上专题算法工具的主要研究者也在线分享了本批工具在时空组学数据处理中的应用,搜索华大时空视频号,或点击链接即可查看直播回放。


SAW是为分析Stereo-seq数据而设计的时空组学生物信息分析流程工具,其通过解析时空芯片测序数据中的空间条形码,还原每个生物分子在组织中的空间定位和表达水平,助力时空组学数据从大数据到有用信息的转化。SAW强大的数据分析和处理的能力,是驱动生命科学深入探索,进而赋能精准医学的重要工具。

 

点击视频查看SAW时空分析流程云平台任务投递



产品亮点

01 支持多组学多模态数据分析

SAW软件是时空组学分析的强大工具,适用于华大时空组学目前推出的所有产品线的数据分析需求。它能够灵活处理各种样本类型,包括新鲜冷冻样本和临床病理中常见的甲醛固定石蜡包埋(FFPE)样本。


SAW的应用范围广泛,无论是单独分析测序数据,还是将测序数据与影像学图像结合分析,或是进行全转录组分析和转录蛋白联合分析,SAW均能提供支持。此外,SAW的分析流程不受物种或组织类型的限制,能够支持对任意样本的分析。在研究组织的空间结构、生物发育过程、疾病进展以及细胞微环境等方面,细胞的准确识别和分布映射至关重要。


SAW支持联合转录组数据与核染色图像等不同模态的数据进行分析,通过图像识别技术精确地定位细胞,并获取其基因表达和分布矩阵。在临床样本分析中,H&E染色常用于病理区域的划分和诊断。SAW能够将H&E图像与空间基因表达矩阵对齐,利用H&E图像提供的病理信息来提取不同区域的表达矩阵,从而为疾病发展的深入分析提供了有力的数据支持。


研究细胞类型和细胞结构时常需要结合蛋白组进行分析。SAW具备将免疫荧光图像与基因表达矩阵精确配准的能力,从而实现这两种数据的联合分析。此外,SAW还能够同时处理单个样本的基因表达和蛋白表达数据,这种多维度的数据融合为细胞注释提供了互补的信息,进而拓宽了组学研究的视野,使研究者能够从更广阔的角度探索生物学问题。


02 强大的计算性能

华大自主研发的时空组学技术Stereo-seq拥有纳米级分辨率和厘米级全景视场,这些优势对分析软件处理巨大的多维数据集产生了不小的挑战。SAW能够高效支持从亿到百亿级捕获点(DNB球)的数据分析,对于常见的S1(1 cm * 1 cm)芯片,运行SAW全流程耗时小于10小时,最高内存不到100GB(24cpu,约1G测序量)。目前内部测试最大可分析S6(6 cm * 6 cm)芯片。仅S6芯片测序数据和空间条形码-坐标信息对应文件就要TB级存储,对于这样庞大的数据集,SAW也可以在不超过256G内存下完成全流程分析。


为了高效地分析时空组学数据,SAW做出了以下优化:

  • 重构参考基因组索引构建方案,优化索引构建后在降低内存的同时提升查询速度;

  • 提升线程利用率,使计算分析更加高效;

  • 图像分析模块适配GPU,大大降低计算时间。在含有深度学习处理的图像分析模块中,SAW支持提供GPU运算。启用GPU后,一张S1芯片的灰度影像图的处理可以从数小时缩减至十分钟;

  • 支持使用流程语言对无依赖模块进行并行运算,减少模块间等待时间。


03 支持个性化配置

SAW mapping支持去除rRNA序列。SAW对测序数据进行参考基因组比对时,可以根据用户提供的核糖体RNA信息进行过滤。具体操作过程及效果可在 时空组学官网 首页> 资源 > 资源库 > 常见问答中搜索(时空组学官网https://www.stomics.tech/)。


SAW支持调整聚类参数。SAW流程中使用bin size 200和leiden resolution 1.0作为默认参数进行基本分析,如果需要调整分析分辨率和聚类粗糙度,可在调用SAW分析模块时进行调整。


SAW支持根据手动图像处理结果重新分析:

  • 重新手动配准。在桌面端工具StereoMap手动对齐影像图和空间基因表达矩阵后,将配准信息传入SAW后,可根据手动操作重新生成新的空间基因表达矩阵和分析报告;

  • 重新手动分割组织区域和细胞。准确的组织分割可以降低后续分析引入背景噪音的几率,如果自动分析效果不佳,或希望只关注组织的局部区域,在本地使用桌面端工具ImageStudio重新分割后,将手动信息传入SAW,可重新输出关注区域的空间基因表达矩阵和分析报告。


应用场景


01 主要应用

SAW适用于多种空间转录组学研究项目,涉及图谱构建、癌症研究、神经科学、发育生物学等众多领域。通过SAW标准化的数据分析流程,可以还原出几乎完整且无偏见的、亚细胞分辨率的细胞整体分子内容的空间表达水平。由于分辨率高于细胞,通过空间条形码读取映射的坐标位置并不直接对应于特定单个细胞,而是形成各种尺寸的“箱”(bin)。多个bins以密铺的方式覆盖整个组织在SAW中称为“bin”或“square bin”(bin1 = 0.5 μm * 0.5 μm)。


常用于进行下游分析的聚合单位有bin20和bin50,可用来模拟类似细胞级分辨率的数据。而如果要获取相对更准确的细胞定位,SAW支持同时分析显微镜拍照的核染色影像图像。通过自动对齐测序空间矩阵和影像图,以及根据图像识别和分割出细胞,最终可以提取出以细胞为聚合区域的“cell bin”,从而得到细胞与基因特征矩阵。


2022年9月登上Science封面的研究中,科研人员依靠SAW软件进行信息提取和分析计算,获得细胞和分子维度信息,进行空间和时间的定位,开展细胞类型注释、基因动态表达和细胞时序变化等一系列分析。最后,利用可靠的分析结果绘制了蝾螈端脑发育及再生的时空单细胞转录组图谱,揭示了一系列脑再生和发育相关的重要发现和机制。


在时空组学出现之前,H&E染色是组织病理学中应用最广泛的染色技术,为疾病诊断和研究细胞和组织结构提供了基本信息。SAW支持同时分析H&E图像和空间基因表达分布矩阵,从图像中获取重要的细胞类型鉴定、病变组织区域鉴定等信息,可为诊断疾病提供更加微观精细的信息。


02 后续产品

华大时空组学即将发布的时空蛋白转录组产品方案Stereo-CITE,基于Stereo-seq芯片在同一切片上同时捕获抗体衍生标签(antibody derived tag,ADT)和mRNA,从而获得蛋白和基因的空间表达信息。SAW不仅能够提供同切片样本的基因的空间表达矩阵,还可以同时处理生成蛋白的表达矩阵。同时联合转录和蛋白两个组学数据共同进行聚类分析,相较于使用单一组学,可以获得更有探索意义的结果,挖掘更多未知机制。


通过福尔马林固定和石蜡包埋(FFPE),样本能在常温下稳定长期保存,显著降低了收集与维护成本,这是临床病理应用中非常常见的样本类型。然而,使用福尔马林固定会对DNA产生损伤,导致核酸容易出现片段化的问题,从而影响RNA分子的提取。2024年华大时空组学也将发布适配FFPE样本的空间转录组检测产品,通过随机引物进行RNA捕获,相对应的SAW分析流程也将支持FFPE样本的分析。FFPE样本的应用,可以大大增加时空组学在肿瘤癌症样本的分析,拓宽病理研究场景。



如何使用

01 使用服务器/集群运行软件镜像分析

SAW软件以镜像的方式打包运行环境和分析模块,简化环境搭建的过程。可以移步GitHub获取运行教程。


GitHub获取运行脚本:

https://github.com/STOmics/SAW

DockerHub获取软件:

https://hub.docker.com/r/stomics/saw/tags


02 时空云平台STOmics Cloud

时空云平台STOmics Cloud是华大时空组学团队针对海量时空数据的处理难题,开发的领先的数据分析平台。SAW分析流程已集成在时空云平台的Workflow分析流程模块中,研究人员只需选择最新的分析流程,并简单填写所需参数,即可轻松提交分析任务,无需繁琐的配置环境和准备流程脚本。即刻体验时空云平台(网址cloud.stomics.tech)。