不确定性量化(可选)

概述

CASSIA 中的不确定性量化通过多次分析迭代和相似性评分来评估注释可靠性。此过程对于以下方面至关重要:

  • 识别稳健的细胞类型分配
  • 检测混合或模糊的簇
  • 量化注释置信度
  • 理解预测变异性

成本警告:使用 LLM 模型运行多次迭代可能会产生显著成本。每次迭代都会进行单独的 API 调用,因此总成本将大约是单次运行成本的 n 倍。

快速开始

library(CASSIA)

# 步骤 1:运行多次迭代
runCASSIA_batch_n_times(
    n = 5,
    marker = marker_data,
    output_name = "my_annotation",
    model = "openai/gpt-5.4",
    provider = "openrouter",
    tissue = "brain",
    species = "human",
    reasoning = "medium"
)

# 步骤 2:计算相似性分数
runCASSIA_similarity_score_batch(
    marker = marker_data,
    file_pattern = "my_annotation_*_summary.csv",
    output_name = "similarity_results",
    model = "openai/gpt-5.4",
    provider = "openrouter",
    reasoning = "medium"
)
R

输入

输入描述格式
marker标记基因数据数据框或文件路径
tissue组织类型上下文字符串(如 "brain"、"large intestine")
species物种上下文字符串(如 "human"、"mouse")
file_pattern匹配迭代结果的模式使用 * 通配符的 Glob 模式

参数

批量迭代 (runCASSIA_batch_n_times)

参数必需默认值描述
n-分析迭代次数(推荐:5)
marker-标记基因数据(数据框或路径)
output_name-输出文件的基本名称
model-使用的 LLM 模型
provider-API 提供商
tissue-组织类型
species-物种
max_workers4整体并行处理限制
batch_max_workers2每次迭代的工作进程(max_workers * batch_max_workers 应与核心数匹配)
reasoningNULL推理深度级别("low"、"medium"、"high")- 仅适用于 GPT-5 模型

相似性评分 (runCASSIA_similarity_score_batch)

参数必需默认值描述
marker-标记基因数据
file_pattern-匹配迭代结果的模式(如 "output_*_summary.csv"
output_name-结果的基本名称
model-用于评分的 LLM 模型
provider-API 提供商
max_workers4并行工作进程数
main_weight0.5主细胞类型匹配的重要性(0-1)
sub_weight0.5亚类型匹配的重要性(0-1)
generate_reportTRUE生成 HTML 报告
report_output_path"uq_batch_report.html"HTML 报告路径
reasoningNULL推理深度级别("low"、"medium"、"high")- 仅适用于 GPT-5 模型

输出

生成的文件

文件描述
{output_name}_{n}_summary.csv每次迭代的结果
{output_name}_similarity.csv跨迭代的相似性分数
uq_batch_report.htmlHTML 可视化报告

相似性分数解读

分数范围解读操作
> 0.9高一致性稳健的注释
0.75 - 0.9中等一致性建议审查
< 0.75低一致性使用 注释增强智能体子聚类

低分故障排除

  1. 审查数据:检查标记基因质量和簇异质性
  2. 尝试高级智能体:使用 注释增强智能体子聚类
  3. 调整参数:增加迭代次数以获得更可靠的共识