Stereo-seq FF 分析

本教程将指导你如何使用 SAW count 进行任务分析,演示数据来自 Stereo-seq 芯片捕获的 FF (新鲜冷冻) 小鼠脑组织样本。

基本要求

为顺利运行 SAW count流程,需要先确认:

  • 熟悉 Linux 系统;
  • 熟悉运行命令行工具;
  • 确保计算系统满足最低配置要求

在运行分析流程之前,确保计算环境中有存储空间充足,以及运行账号有足够的权限等级

SAW count 流程概述

使用 SAW count 分析 FF 组织样本的 Stereo-seq 测序数据。

启动分析任务前,通常需要准备好以下文件:

  • 芯片 mask 文件(记录 Stereo-seq 芯片的 CID 信息)
  • FASTQ 测序数据(Stereo-seq 测序下机数据)
  • reference 文件(参考基因组的索引文件,根据物种进行选择)
  • 一张或多张显微镜图像(TIFF 或来自 StereoMap 的图像 .tar.gz

来自 StereoMap 的压缩图像.tar.gz 文件 ,保存了原始的显微镜图像和 图像 QC 信息。

输出结果主要包括:

  • 比对和注释后的 BAM 文件;
  • 处理后的图像文件;
  • 不同维度的基因表达矩阵;
  • 聚类​​和差异表达分析结果;
  • 可视化文件 visualization.tar.gz , 用于 StereoMap

Demo 数据

本教程页面使用了 Stereo-seq Chip T 捕获的小鼠脑组织样本。

C04042E3 数据基本信息如下:

  • 芯片尺寸:1cm * 1cm (S1)
  • Bin1: 500 nm * 500 nm
  • 10μm 厚度的组织切片
  • Motic 显微镜拍摄得到的 H&E 染色图像

数据集页面下载芯片 mask 文件、测序 FASTQ 数据、TIFF 图像或图像 tar.gz 文件,以及 reference 文件。为了更好地归纳和整理数据,建议为不同类型的文件创建对应的文件夹。

$ cd /saw

# Create sub-folders of different datasets
$ mkdir -p datasets/fastqs datasets/mask datasets/image datasets/reference

参数命令

在工作目录下,运行设置 SAW count 参数命令:

saw count \    
    --id=<task_id> \
    --sn=<SN> \
    --omics=transcriptomics \
    --kit-version="Stereo-seq T FF V1.3" \
    --sequencing-type="PE75_50+100" \
    --chip-mask=/path/to/chip/mask \
    --organism=<organism> \
    --tissue=<tissue> \
    --fastqs=/path/to/fastq/folders \
    --reference=/saw/datasets/reference \
    --image-tar=/path/to/image/tar

命令行中参数的简要说明:

ParameterDescription
--id(Optional, default to None) A unique task id ([a-zA-Z0-9_-]+) which will be displayed as the output folder name and the title of HTML report. If the parameter is absent, --sn will play the same role.
--sn <SN>(Required, default to None) SN (serial number) of the Stereo-seq chip.
--omics <OMICS>(Required, default to "transcriptomics") Omics information.
--kit-version <TEXT>(Required, default to None) The version of the product kit. More in count pipeline introduction.
--sequencing-type <TEXT>(Required, default to None) Sequencing type of FASTQs which is recorded in the sequencing report.
--chip-mask <MASK>(Required, default to None) Stereo-seq chip mask file.
--organism <TEXT>(Optional, default to None) Organism type of sample, usually referring to species.
--tissue <TEXT>(Optional, default to None) Physiological tissue of sample.
--reference <PATH>(Optional, default to None) Path to the reference folder, containing SAW-compatible index files and GTF/GFF, built by SAW makeRef.
--fastqs <PATH>(Required, default to None) Path(s) to folder(s), containing all needed FASTQs. If FASTQs are stored in multiple directories, use it as: --fastqs=/path/to/directory1,/path/to/directory2,.... Notice that all FASTQ files under these directories will be loaded for analysis.
--image <TIFF>(Optional, default to None) TIFF image for QC (quality control), combined with expression matrix for analysis.
Name rule for input TIFF :
a. <SN>_<stain_type>.tif
b. <SN>_<stain_type>.tiff
c. <SN>_<stain_type>.TIF
d. <SN>_<stain_type>.TIFF
<stainType> includes:
a. ssDNA
b. DAPI
c. HE (referring to H&E)
d. <_IF_name1>_IF, <IF_name2>_IF, ...
--image-tar <TAR>(Optional, default to None) The compressed image .tar.gz file from StereoMap has been through prepositive QC (quality control).

运行 SAW count

在工作目录下,运行设置 SAW count 分析任务:

cd /saw/runs

saw count \
    --id=Demo_Mouse_Brain \
    --sn=C04042E3 \
    --omics=transcriptomics \
    --kit-version="Stereo-seq T FF V1.3" \
    --sequencing-type="PE75_50+100" \
    --chip-mask=/saw/datasets/mask/C04042E3.barcodeToPos.h5 \
    --organism=mouse \
    --tissue=brain \
    --fastqs=/saw/datasets/fastqs \
    --reference=/saw/datasets/reference \
    --image-tar=/saw/datasets/image/C04042E3_SC_20240930_201353_4.1.0.tar.gz

如果您输入图像为 TIFF 格式,文件名的前缀应为:

<SN>_<stain_type>_*.tif

免疫荧光染色 (IF) 图像应为:

<SN>_<IF_name>_IF_*.tif

例如:

  • C04144D5_ssDNA.tif
  • SS200000135TL_D1_DAPI.tif
  • C02533C1_HE.tif (HE 指 H&E 染色)
  • SS200000059_NC_DAPI.tif、SS200000059_NC_TESK2_IF.tif、SS200000059_NC_APAK3_IF.tif,……

探索输出目录

分析任务运行结束后,在工作目录下会生成一个名为 Demo_Mouse_Brain 的输出文件夹,它的命名取决于 --id 参数,当--id参数没有启用时取决于 --sn 参数的信息。

SAW count 分析任务通常在工作目录下开启,在该目录下,将找到一个名为 --id--sn(当--id参数没有启用时)的文件夹。输出结果依据数据类型被分类,主要文件被保存在 /outs下。

下面列出了 SAW count 的输出文件目录结构和内容:

Demo_Mouse_Brain
├── pipeline-logs
├── STEREO_ANALYSIS_WORKFLOW_PROCESSING
└── outs
    ├── analysis
    ├── bam
    ├── feature_expression
    ├── image
    ├── <SN>.report.html
    └── visualization.tar.gz

进一步探究流程输出结果 :

© 2025 STOmics Tech. All rights reserved.Modified: 2025-03-07 10:28:19

results matching ""

    No results matching ""