使用标记文件进行基础注释
本教程介绍使用CASSIA进行细胞类型注释的基本步骤,适用于您已经准备好标记基因列表的情况。这非常适合您已经完成聚类分析并希望对细胞簇进行注释的场景。
1. 安装和设置
在开始之前,请确保已安装并配置CASSIA。有关详细说明,请参阅设置CASSIA文档。
library(CASSIA) # 设置API密钥(推荐使用OpenRouter) setLLMApiKey("your_openrouter_api_key", provider = "openrouter", persist = TRUE)R
2. 使用标记文件
CASSIA使用差异表达分析产生的标记基因数据。它接受Seurat的FindAllMarkers输出、Scanpy的rank_genes_groups输出或简化格式。有关详细的格式说明,请参阅批量处理文档。
2.1 示例数据
在本教程中,我们将使用CASSIA自带的示例数据,其中包含来自大肠数据集的六个不同细胞群体的细胞簇:
- 单核细胞(原始注释不准确,该细胞簇应为施旺细胞。更多证据可在论文中找到)
- 浆细胞
- CD8阳性αβT细胞
- 大肠过渡扩增细胞
- 肠道肠内分泌细胞
- 肠隐窝干细胞
# 加载两种格式的示例标记数据 markers_unprocessed <- loadExampleMarkers(processed = FALSE) # 直接的Seurat FindAllMarkers输出 markers_processed <- loadExampleMarkers(processed = TRUE) # 处理后格式 # 预览两种数据格式 head(markers_unprocessed) head(markers_processed)R
3. 运行基础注释
3.1 快速模式(一体化)
如需快速、全面的分析,可一次性执行所有步骤:
# 以快速模式运行完整的CASSIA流程 fast_results <- runCASSIA_pipeline( output_file_name = "CASSIA_Results", tissue = "large intestine", species = "human", marker = markers_unprocessed )R
有关每个参数的详细信息,请参阅快速模式文档。
3.2 批量分析(更快)
如需更快的注释,不运行质量评分、合并和注释增强。这对于大多数情况已经足够:
output_name="CASSIA_analysis" # 使用OpenRouter运行批量分析 batch_results <- runCASSIA_batch( marker = markers_unprocessed, output_name = output_name, tissue = "large intestine", species = "human", model = "anthropic/claude-sonnet-4.6", provider = "openrouter" )R
4. 解读结果
HTML报告提供可视化摘要,包括:
- 各细胞簇的质量评分和推理过程
- 每个细胞簇的详细注释信息
对于低分数(<75)的细胞簇,请考虑:
- 检查组织类型是否正确指定
- 验证物种是否正确
- 通过基本QC指标、双细胞检测和环境RNA去除来检查细胞簇质量
- 使用下一节描述的其他分析方法
5. 后续步骤
完成基础注释后,您可以探索CASSIA的其他功能。