为什么FPKM/RPKM逐渐被TPM取代?

生信学长
2025年08月08日
差异表达分析
为什么FPKM/RPKM逐渐被TPM取代?

大家早上好,今天跟大家聊一下为什么FPKM/RPKM逐渐被TPM取代?

在转录组数据分析的历史进程中,基因表达量的标准化方法经历了从RPKM、FPKM到TPM的演进。尽管这些方法看似相似,但TPM的数学特性使其在样本间比较方面具有显著优势。为什么TPM会成为当前的主流选择?


FPKM与TPM对比
FPKM与TPM对比

图 1 不同基因长度下FPKM与TPM值的分布对比:两种方法对基因长度的校正效果相似。

数学原理的差异

RPKM(Reads Per Kilobase Million)和FPKM(Fragments Per Kilobase Million)的计算公式为:基因reads数 × 10^9 / (基因长度 × 总reads数)。而TPM(Transcripts Per Million)则是:(基因reads数/基因长度) / 所有基因RPK之和 × 10^6。

关键差异在于标准化的顺序:FPKM先按总reads数标准化再按基因长度校正,而TPM先按基因长度校正再进行总量标准化。这个看似微小的差异,却导致了根本性的数学特性差异。

TPM的独特优势

TPM总和特性
TPM总和特性

图 2 TPM值在每个样本中恒定总和为100万的特性验证。

TPM最重要的数学特性是:在任何样本中,所有基因的TPM值总和都等于1,000,000。这意味着TPM值实际上是表达比例的标准化表示,每个基因的TPM值代表了该基因在该样本总转录本中所占的比例(以百万分之一为单位)。

相比之下,FPKM值在不同样本间的总和可能差异很大,这使得样本间的直接比较变得困难。当一个样本中某些基因高表达时,其他基因的FPKM值会相对降低,即使它们的实际表达水平没有变化。

实际应用中的意义

标准化工作流程
标准化工作流程

图 3 FPKM与TPM标准化方法的计算流程对比。

在差异表达分析中,TPM的比例特性使其更适合样本间比较。由于每个样本的TPM总和相等,研究者可以直接比较不同样本中同一基因的TPM值,而无需担心样本间总表达量差异的干扰。

这种特性在多样本比较、时间序列分析、以及跨条件差异分析中尤为重要。TPM值的相对稳定性也使得下游的统计分析更加可靠,减少了因标准化方法引入的偏差。

最后

虽然FPKM和TPM在单样本内的基因排序基本一致,但TPM的数学特性使其在多样本比较中更具优势。随着转录组学研究越来越注重样本间的精确比较,TPM已成为表达量标准化的首选方法。