不确定性量化(可选)

概述

CASSIA 中的不确定性量化通过多次分析迭代和相似性评分来评估注释的可靠性。此过程对于以下方面至关重要:

  • 识别稳健的细胞类型分配
  • 检测混合或模棱两可的聚类
  • 量化注释置信度
  • 了解预测的可变性

成本警告:使用 LLM 模型运行多次迭代可能会产生大量费用。每次迭代都会进行单独的 API 调用,因此总成本约为单次运行成本的 n 倍。

快速开始

单聚类分析

from CASSIA import runCASSIA_n_times_similarity_score

result = runCASSIA_n_times_similarity_score(
    tissue="large intestine",
    species="human",
    marker_list=["CD38", "CD138", "JCHAIN", "MZB1", "SDC1"],
    model="openai/gpt-5.4",
    provider="openrouter",
    n=5,
    reasoning="medium"
)

print(f"主要细胞类型: {result['general_celltype_llm']}")
print(f"相似性评分: {result['similarity_score']}")
Python

批量分析

import CASSIA

# 步骤 1:运行多次迭代
CASSIA.runCASSIA_batch_n_times(
    n=5,
    marker=marker_data,
    output_name="my_annotation",
    model="openai/gpt-5.4",
    provider="openrouter",
    tissue="large intestine",
    species="human",
    reasoning="medium"
)

# 步骤 2:计算相似性评分
CASSIA.runCASSIA_similarity_score_batch(
    marker=marker_data,
    file_pattern="my_annotation_*_summary.csv",
    output_name="similarity_results",
    model="openai/gpt-5.4",
    provider="openrouter",
    reasoning="medium"
)
Python

输入

输入描述格式
marker_list单聚类的标记基因基因名称列表
marker批量处理的标记基因数据DataFrame 或文件路径
tissue组织类型上下文字符串(如 "brain"、"large intestine")
species物种上下文字符串(如 "human"、"mouse")
file_pattern匹配迭代结果的模式使用 * 通配符的 Glob 模式

参数

单聚类 (runCASSIA_n_times_similarity_score)

参数必需默认值描述
tissue-用于上下文的组织类型
species-用于上下文的物种
marker_list-标记基因列表
model-要使用的 LLM 模型
provider-API 提供商("openrouter"、"openai"、"anthropic")
n5分析迭代次数
temperature0.3LLM 温度(较低 = 更一致)
max_workers3并行处理工作者数
main_weight0.5相似性中主要细胞类型的权重 (0-1)
sub_weight0.5相似性中亚型的权重 (0-1)
validator_involvement"v1"验证器模式("v0" 严格,"v1" 中等)
additional_infoNone额外上下文字符串
generate_reportTrue生成 HTML 报告
report_output_path"uq_report.html"HTML 报告路径
reasoningNone推理深度级别("low"、"medium"、"high")- 仅适用于 GPT-5 模型

批量迭代 (runCASSIA_batch_n_times)

参数必需默认值描述
n-分析迭代次数(建议:5)
marker-标记基因数据(DataFrame 或路径)
output_name-输出文件的基本名称
model-要使用的 LLM 模型
provider-API 提供商
tissue-组织类型
species-物种
max_workers4总体并行处理限制
batch_max_workers2每次迭代的工作者数
reasoningNone推理深度级别("low"、"medium"、"high")- 仅适用于 GPT-5 模型

相似性评分 (runCASSIA_similarity_score_batch)

参数必需默认值描述
marker-标记基因数据
file_pattern-匹配迭代结果的模式(如 "output_*_summary.csv"
output_name-结果的基本名称
model-用于评分的 LLM 模型
provider-API 提供商
max_workers4并行工作者数
main_weight0.5主要细胞类型匹配的重要性 (0-1)
sub_weight0.5亚型匹配的重要性 (0-1)
generate_reportTrue生成 HTML 报告
report_output_path"uq_batch_report.html"HTML 报告路径
reasoningNone推理深度级别("low"、"medium"、"high")- 仅适用于 GPT-5 模型

输出

生成的文件

文件描述
{output_name}_{n}_summary.csv每次迭代的结果
{output_name}_similarity.csv跨迭代的相似性评分
uq_report.html / uq_batch_report.htmlHTML 可视化报告

返回值(单聚类)

描述
general_celltype_llm共识主要细胞类型
sub_celltype_llm共识亚细胞类型
similarity_score跨迭代的总体相似性 (0-1)
consensus_types出现频率最高的细胞类型
Possible_mixed_celltypes_llm检测到的混合细胞类型群体
original_results每次迭代的原始结果

相似性评分解读

分数范围解读操作
> 0.9高一致性稳健的注释
0.75 - 0.9中等一致性建议审查
< 0.75低一致性使用 注释增强智能体亚群聚类

低分故障排除

  1. 检查数据:检查标记基因质量和聚类异质性
  2. 尝试高级智能体:使用 注释增强智能体亚群聚类
  3. 调整参数:增加迭代次数以获得更可靠的共识