Stereo-seq FF 分析
本教程将指导你如何使用 SAW count
进行任务分析,演示数据来自 Stereo-seq 芯片捕获的 FF (新鲜冷冻) 小鼠脑组织样本。
基本要求
为顺利运行 SAW count
流程,需要先确认:
- 熟悉 Linux 系统;
- 熟悉运行命令行工具;
- 确保计算系统满足最低配置要求。
在运行分析流程之前,确保计算环境中有存储空间充足,以及运行账号有足够的权限等级。
SAW count 流程概述
使用 SAW count
分析 FF 组织样本的 Stereo-seq 测序数据。
启动分析任务前,通常需要准备好以下文件:
- 芯片 mask 文件(记录 Stereo-seq 芯片的 CID 信息)
- FASTQ 测序数据(Stereo-seq 测序下机数据)
- reference 文件(参考基因组的索引文件,根据物种进行选择)
- 一张或多张显微镜图像(
TIFF
或来自 StereoMap 的图像.tar.gz
)
来自 StereoMap 的压缩图像.tar.gz
文件 ,保存了原始的显微镜图像和 图像 QC 信息。

输出结果主要包括:
- 比对和注释后的 BAM 文件;
- 处理后的图像文件;
- 不同维度的基因表达矩阵;
- 聚类和差异表达分析结果;
- 可视化文件
visualization.tar.gz
, 用于 StereoMap。
Demo 数据
本教程页面使用了 Stereo-seq Chip T 捕获的小鼠脑组织样本。
C04042E3 数据基本信息如下:
- 芯片尺寸:1cm * 1cm (S1)
- Bin1: 500 nm * 500 nm
- 10μm 厚度的组织切片
- Motic 显微镜拍摄得到的 H&E 染色图像
在数据集页面下载芯片 mask 文件、测序 FASTQ 数据、TIFF 图像或图像 tar.gz
文件,以及 reference 文件。为了更好地归纳和整理数据,建议为不同类型的文件创建对应的文件夹。
$ cd /saw
# Create sub-folders of different datasets
$ mkdir -p datasets/fastqs datasets/mask datasets/image datasets/reference
参数命令
在工作目录下,运行设置 SAW count
参数命令:
saw count \
--id=<task_id> \
--sn=<SN> \
--omics=transcriptomics \
--kit-version="Stereo-seq T FF V1.3" \
--sequencing-type="PE75_50+100" \
--chip-mask=/path/to/chip/mask \
--organism=<organism> \
--tissue=<tissue> \
--fastqs=/path/to/fastq/folders \
--reference=/saw/datasets/reference \
--image-tar=/path/to/image/tar
命令行中参数的简要说明:
Parameter | Description |
---|---|
--id | (Optional, default to None) A unique task id ([a-zA-Z0-9_-]+) which will be displayed as the output folder name and the title of HTML report. If the parameter is absent, --sn will play the same role. |
--sn <SN> | (Required, default to None) SN (serial number) of the Stereo-seq chip. |
--omics <OMICS> | (Required, default to "transcriptomics") Omics information. |
--kit-version <TEXT> | (Required, default to None) The version of the product kit. More in count pipeline introduction. |
--sequencing-type <TEXT> | (Required, default to None) Sequencing type of FASTQs which is recorded in the sequencing report. |
--chip-mask <MASK> | (Required, default to None) Stereo-seq chip mask file. |
--organism <TEXT> | (Optional, default to None) Organism type of sample, usually referring to species. |
--tissue <TEXT> | (Optional, default to None) Physiological tissue of sample. |
--reference <PATH> | (Optional, default to None) Path to the reference folder, containing SAW-compatible index files and GTF/GFF, built by SAW makeRef . |
--fastqs <PATH> | (Required, default to None) Path(s) to folder(s), containing all needed FASTQs. If FASTQs are stored in multiple directories, use it as: --fastqs=/path/to/directory1,/path/to/directory2,... . Notice that all FASTQ files under these directories will be loaded for analysis. |
--image <TIFF> | (Optional, default to None) TIFF image for QC (quality control), combined with expression matrix for analysis. Name rule for input TIFF : a. <SN>_<stain_type>.tif b. <SN>_<stain_type>.tiff c. <SN>_<stain_type>.TIF d. <SN>_<stain_type>.TIFF <stainType> includes: a. ssDNA b. DAPI c. HE (referring to H&E) d. <_IF_name1>_IF, <IF_name2>_IF, ... |
--image-tar <TAR> | (Optional, default to None) The compressed image .tar.gz file from StereoMap has been through prepositive QC (quality control). |
运行 SAW count
在工作目录下,运行设置 SAW count
分析任务:
cd /saw/runs
saw count \
--id=Demo_Mouse_Brain \
--sn=C04042E3 \
--omics=transcriptomics \
--kit-version="Stereo-seq T FF V1.3" \
--sequencing-type="PE75_50+100" \
--chip-mask=/saw/datasets/mask/C04042E3.barcodeToPos.h5 \
--organism=mouse \
--tissue=brain \
--fastqs=/saw/datasets/fastqs \
--reference=/saw/datasets/reference \
--image-tar=/saw/datasets/image/C04042E3_SC_20240930_201353_4.1.0.tar.gz
如果您输入图像为 TIFF 格式,文件名的前缀应为:
<SN>_<stain_type>_*.tif
免疫荧光染色 (IF) 图像应为:
<SN>_<IF_name>_IF_*.tif
例如:
- C04144D5_ssDNA.tif
- SS200000135TL_D1_DAPI.tif
- C02533C1_HE.tif (HE 指 H&E 染色)
- SS200000059_NC_DAPI.tif、SS200000059_NC_TESK2_IF.tif、SS200000059_NC_APAK3_IF.tif,……
探索输出目录
分析任务运行结束后,在工作目录下会生成一个名为 Demo_Mouse_Brain
的输出文件夹,它的命名取决于 --id
参数,当--id
参数没有启用时取决于 --sn
参数的信息。
SAW count
分析任务通常在工作目录下开启,在该目录下,将找到一个名为 --id
或 --sn
(当--id
参数没有启用时)的文件夹。输出结果依据数据类型被分类,主要文件被保存在 /outs
下。
下面列出了 SAW count
的输出文件目录结构和内容:
Demo_Mouse_Brain
├── pipeline-logs
├── STEREO_ANALYSIS_WORKFLOW_PROCESSING
└── outs
├── analysis
├── bam
├── feature_expression
├── image
├── <SN>.report.html
└── visualization.tar.gz

进一步探究流程输出结果 :
- 跳转至HTML报告解读;
- 熟悉
visualization.tar.gz
可视化文件; - 了解输出结果中的各种文件类型。