Stereo-CITE FF 分析

本教程将指导你如何使用 SAW count 进行任务分析,演示数据来自时空蛋白组转录组 Stereo-CITE 解决方案 Stereo-seq 芯片捕获的 FF (新鲜冷冻) 小鼠胸腺样本。

基本要求

为顺利运行 SAW count流程,需要先确认:

  • 熟悉 Linux 系统;
  • 熟悉运行命令行工具;
  • 确保计算系统满足最低配置要求

在运行分析流程之前,确保计算环境中有存储空间充足,以及运行账号有足够的权限等级

SAW count 流程概述

使用 SAW count 分析 FF 组织样本的 Stereo-seq 测序数据。

启动分析任务前,通常需要准备好以下文件:

  • 芯片 mask 文件(记录 Stereo-seq 芯片的 CID 信息)
  • 基因表达和ADT (Antibody derived tag) FASTQ 测序数据(Stereo-seq 测序下机数据)
  • 参考库(根据物种进行选择),包括蛋白列表和转录组参考。您可以查询 Reference libraries 帮助构建 CSV 格式的参考库。
  • 一张或多张显微镜图像(TIFF 或来自 StereoMap 的图像 .tar.gz

来自 StereoMap 的压缩图像.tar.gz 文件 ,保存了原始的显微镜图像和 图像 QC 信息。

输出结果主要包括:

  • 比对和注释后的 BAM 文件;
  • 处理后的图像文件;
  • 不同维度的基因和蛋白表达矩阵;
  • 转录组聚类​​和差异表达分析结果;
  • 蛋白组聚类结果
  • 可视化文件 visualization.tar.gz , 用于 StereoMap

Demo 数据

本教程页面使用了 Stereo-seq Chip T 捕获的小鼠胸腺组织样本。

A02677B5数据基本信息如下:

  • 芯片尺寸:1cm * 1cm (S1)
  • Bin1: 500 nm * 500 nm
  • 10μm 厚度的组织切片
  • Motic 显微镜拍摄得到的 DAPI 染色图像

数据集页面下载芯片 mask 文件、测序 FASTQ 数据、TIFF 图像或图像 tar.gz 文件,转录组 reference 文件和蛋白列表。为了更好地归纳和整理数据,建议为不同类型的文件创建对应的文件夹。

$ cd /saw

# Create sub-folders of different datasets
$ mkdir -p datasets/STOmics-RNA-fastqs datasets/STOmics-ADT-fastqs datasets/mask datasets/image datasets/reference

参数命令

请创建参考库 ref_libraries.csv 后再提交任务。您可以查询#reference-libraries-1帮助构建参考库。

在工作目录下,运行设置 SAW count 参数命令:

saw count \    
    --id=<task_id> \
    --sn=<SN> \
    --omics=transcriptomics,proteomics \
    --kit-version="Stereo-CITE T FF V1.0" \
    --sequencing-type="PE100_50+100" \
    --chip-mask=/path/to/chip/mask \
    --organism=<organism> \
    --tissue=<tissue> \
    --fastqs=/saw/datasets/STOmics-RNA-fastqs \
    --adt-fastqs=/saw/datasets/STOmics-ADT-fastqs \
    --ref-libraries=/saw/datasets/reference/ref_libraries.csv \
    --image-tar=/path/to/image/tar

命令行中参数的简要说明:

ParameterDescription
--id(Optional, default to None) A unique task id ([a-zA-Z0-9_-]+) which will be displayed as the output folder name and the title of HTML report. If the parameter is absent, --sn will play the same role.
--sn <SN>(Required, default to None) SN (serial number) of the Stereo-seq chip.
--omics <OMICS>(Required, default to "transcriptomics") Omics information. "transcriptomics,proteomics" for Stereo-CITE analysis.
--kit-version <TEXT>(Required, default to None) The version of the product kit. More in count pipeline introduction.
--sequencing-type <TEXT>(Required, default to None) Sequencing type of FASTQs which is recorded in the sequencing report.
--chip-mask <MASK>(Required, default to None) Stereo-seq chip mask file.
--organism <TEXT>(Optional, default to None) Organism type of sample, usually referring to species.
--tissue <TEXT>(Optional, default to None) Physiological tissue of sample.
--ref-libraries <CSV>(Optional, default to None) Path to a ref_libraries.csv which declares the Transcriptome reference index built by SAW makeRef --mode=STAR , and the protein panel. Not compatible with --reference.
--fastqs <PATH>(Required, default to None) Path(s) to folder(s), containing all needed gene expression FASTQs. If FASTQs are stored in multiple directories, use it as: --fastqs=/path/to/directory1,/path/to/directory2,.... Notice that all FASTQ files under these directories will be loaded for analysis.
--adt-fastqs <PATH>(Optional, default to None) Path(s) to folder(s), containing all needed ADT FASTQs. If FASTQs are stored in multiple directories, use it as: --adt-fastqs=/path/to/directory1,/path/to/directory2,.... Notice that all FASTQ files under these directories will be loaded for analysis.
--image <TIFF>(Optional, default to None) TIFF image for QC (quality control), combined with expression matrix for analysis.
Name rule for input TIFF :
a. <SN>_<stain_type>.tif
b. <SN>_<stain_type>.tiff
c. <SN>_<stain_type>.TIF
d. <SN>_<stain_type>.TIFF
<stainType> includes:
a. ssDNA
b. DAPI
c. HE (referring to H&E)
d. <_IF_name1>_IF, <IF_name2>_IF, ...
--image-tar <TAR>(Optional, default to None) The compressed image .tar.gz file from StereoMap has been through prepositive QC (quality control).

运行 SAW count

在工作目录下,运行设置 SAW count 分析任务:

cd /saw/runs

saw count \
    --id=Demo_Mouse_Thymus \
    --sn=A02677B5 \
    --omics=transcriptomics,proteomics \
    --kit-version="Stereo-CITE T FF V1.0" \
    --sequencing-type="PE100_50+100" \
    --chip-mask=/saw/datasets/mask/A02677B5.barcodeToPos.h5 \
    --organism=mouse \
    --tissue=thymus \
    --fastqs=/saw/datasets/STOmics-RNA-fastqs \
    --adt-fastqs=/saw/datasets/STOmics-ADT-fastqs \
    --ref-libraries=/saw/datasets/reference/ref_libraries.csv \
    --image-tar=/saw/datasets/image/A02677B5_SC_20240327_201353_4.1.0.tar.gz

本教程样本的 ref_libraries.csv 内容如下

Reference,Type
/saw/datasets/reference/reference-data-mouse_SAW_v8,STAR
/saw/datasets/reference/ProteinPanel_128_mouse_V2.list,ProteinMap

如果您输入图像为 TIFF 格式,文件名的前缀应为:

<SN>_<stain_type>_*.tif

例如:

  • C04144D5_ssDNA.tif
  • SS200000135TL_D1_DAPI.tif

探索输出目录

分析任务运行结束后,在工作目录下会生成一个名为 Demo_Mouse_Thymus 的输出文件夹,它的命名取决于 --id 参数,当--id参数没有启用时取决于 --sn 参数的信息。

SAW count 分析任务通常在工作目录下开启,在该目录下,将找到一个名为 --id--sn(当--id参数没有启用时)的文件夹。输出结果依据数据类型被分类,主要文件被保存在 /outs下。

下面列出了 SAW count 的输出文件目录结构和内容:

Demo_Mouse_Thymus
├── pipeline-logs
├── STEREO_ANALYSIS_WORKFLOW_PROCESSING
└── outs
    ├── analysis
    ├── bam
    ├── feature_expression
    ├── image
    ├── <SN>.report.html
    └── visualization.tar.gz

进一步探究流程输出结果 :

© 2025 STOmics Tech. All rights reserved.Modified: 2025-03-07 10:28:04

results matching ""

    No results matching ""