单细胞分析中,为什么要先做质控过滤?

生信学长
2025年08月03日
单细胞分析
单细胞分析中,为什么要先做质控过滤?

大家晚上好,明天就是周一了,在假日的结尾聊一下单细胞分析的数据质量控制。

拿到单细胞测序数据后,很多同学可能会急于进入降维聚类等"有趣"的分析环节,但是: 质控过滤是第一步,也是最关键的一步 。这种谨慎真的有必要吗?


单细胞质控流程
单细胞质控流程

图 1 单细胞质控决策树:每个过滤步骤都直接影响后续分析的可靠性。

单细胞技术的本质挑战在于 信号与噪音的博弈 。与传统 bulk RNA-seq 不同,单细胞捕获的是极其微量的转录本,技术噪音、细胞死亡、双细胞污染等问题被无限放大。一个垂死细胞释放的异常高水平核糖体 RNA,或是两个细胞意外融合产生的双倍基因表达,都会在下游分析中制造虚假的"细胞亚型"。

质控的核心在于识别并剔除这些 技术性异常细胞 ,而非真正的生物学差异。这需要我们在保留珍贵的稀有细胞类型与去除技术干扰之间找到微妙的平衡。

深入拆解

基因检测数量(nFeature)反映细胞活力 。健康的细胞通常表达 1500-4000 个基因,过低提示细胞死亡或 mRNA 降解,过高则暗示可能是双细胞(doublet)或多细胞团。

UMI 总数(nCount)代表转录活跃度 。虽然不同细胞类型的转录水平差异巨大,但极端值往往指向技术问题:过低的 UMI 数通常是捕获失败,过高则可能是细胞聚集。

质控指标分布
质控指标分布

图 2 关键质控指标的分布特征:正常细胞与异常细胞呈现截然不同的模式。

线粒体基因比例是细胞健康的敏感指标 。当细胞膜完整性受损时,胞质 mRNA 更容易降解,而线粒体内的转录本相对稳定,导致线粒体基因比例异常升高(通常 >20%)。这些细胞虽然仍能被检测到,但其转录谱已严重偏离生理状态。

质控指标相关性
质控指标相关性

图 3 质控指标间的关联模式:多维度信息共同定义细胞质量边界。

严格质控的收益远超成本 。虽然过滤会损失 10-30% 的细胞,但换来的是聚类结果的显著改善:异常细胞往往自成一类,掩盖真正的生物学信号,移除它们后,细胞类型的边界变得更加清晰,基因表达模式更符合先验知识。

写在最后

单细胞质控体现了"garbage in, garbage out "的铁律。与其在后期为解释奇怪的聚类结果而困扰,不如在起点就建立高标准的数据质量基线。严谨的质控是单细胞分析可信度的基石。

下次聊一下这两个工具 DoubletFinder、Scrublet 等双细胞检测工具,以及细胞周期评分在质控中的应用。


以上就是今天的内容,希望对你有帮助!欢迎点赞、在看、关注、转发。