为什么DESeq2采用median-of-ratios归一化?

生信学长
2025年08月14日
差异表达分析
为什么DESeq2采用median-of-ratios归一化?

大家早上好,今天聊一下差异表达分析常用的包 DESeq2,聊一下关于这个包的 median-of-ratios归一化方法。

在RNA-seq差异表达分析中,DESeq2包已成为金标准工具之一。其独特的median-of-ratios归一化方法在众多归一化策略中脱颖而出,被广泛采用。为什么DESeq2选择这种看似复杂的归一化方法,而不是更直观的总计数标准化?


Median-of-ratios工作流程
Median-of-ratios工作流程

图 1 DESeq2 median-of-ratios归一化的核心计算步骤:从原始计数到标准化因子的完整流程。

传统的总计数归一化方法假设大多数基因在样本间表达相对稳定,通过将每个样本的所有基因计数除以该样本的总计数来实现标准化。然而,这种方法在面对差异表达基因比例较高或存在极端表达变化时容易失效。

中位数的稳健性优势

Median-of-ratios方法的核心创新在于使用中位数而非均值来估计标准化因子。对于每个基因,首先计算其在所有样本中的几何均值作为参考值,然后计算每个样本中该基因与参考值的比值。最终,取每个样本所有基因比值的中位数作为该样本的标准化因子。

归一化方法对比
归一化方法对比

图 2 不同归一化方法的效果对比:展示总计数法与median-of-ratios法在处理不同库大小时的表现。

中位数相比均值具有更强的稳健性。即使样本中有少量基因发生极端的表达变化(如某些基因表达量增加数十倍),中位数仍能准确反映大多数基因的整体表达水平。这种稳健性使得DESeq2能够在差异表达基因比例较高的实验条件下仍保持良好的归一化效果。

Size factor准确性
Size factor准确性

图 3 DESeq2估计的size factor与真实库大小的比较:红色圆点为DESeq2估计值,蓝色三角为真实值。

处理系统性偏差

Median-of-ratios方法的另一个优势是能够有效处理系统性偏差。在实际的RNA-seq实验中,不同样本的测序深度、RNA质量、文库制备效率等技术因素都可能引入系统性差异。通过基于基因间相对表达关系而非绝对计数值进行归一化,这种方法能够更好地消除技术噪音,保留真正的生物学差异。

该方法还能自动过滤掉在任何样本中计数为零的基因,避免这些基因对标准化因子估计的干扰。这种自动过滤机制确保了计算的稳定性和可靠性。

稳健性对比
稳健性对比

图 4 中位数与均值在面对异常值时的稳健性对比:展示中位数(虚线)相比均值(实线)的抗干扰能力。

理论基础与实践验证

从理论角度,median-of-ratios归一化基于这样的假设:大多数基因在不同条件下的表达是相对稳定的,只有少数基因会发生显著的差异表达。这个假设在绝大多数生物学实验中都是成立的。

大量的基准测试研究表明,在各种实验条件下,DESeq2的median-of-ratios归一化都能提供更准确的结果。特别是在差异表达基因比例较高、存在极端表达变化或样本间技术变异较大的情况下,这种方法显著优于传统的归一化策略。

结语

DESeq2采用median-of-ratios归一化方法体现了生信算法设计中"稳健性优于简单性"的重要原则。虽然计算过程相对复杂,但其在处理各种实验条件下都能保持稳定可靠的表现,使其成为RNA-seq差异分析的首选方法。理解这种归一化策略的原理,有助于研究者更好地解读分析结果并选择合适的分析工具。