为什么要做 GSEA 富集分析?

生信学长
2025年08月01日
富集分析
为什么要做 GSEA 富集分析?

完成差异表达分析后,面对成百上千个差异基因,我们如何从中挖掘生物学意义?传统的超几何检验富集分析(ORA)似乎已经足够,为什么还要引入更复杂的 GSEA(Gene Set Enrichment Analysis)?


ORA vs GSEA 比较
ORA vs GSEA 比较

图 1 传统富集分析与 GSEA 的策略差异:信息利用程度决定分析深度。

传统的过表征分析(ORA)依赖于预设的显著性阈值来二分基因:要么差异表达,要么不差异。这种"一刀切"的做法忽略了一个重要事实: 生物学过程往往表现为微小但协调一致的表达变化 ,而非少数基因的剧烈波动。

GSEA 的革命性在于摒弃了硬性阈值,改为使用 完整的基因排序列表 。这意味着即使某个基因的变化幅度未达到"显著"标准,它仍能为生物学解释贡献力量。

深入拆解

GSEA 捕获的是"微妙的一致性" 。假设某个代谢通路包含 50 个基因,虽然其中每个基因的 log2FC 都在 0.3-0.8 之间(未达到传统的"显著"标准),但它们整体呈现上调趋势。ORA 会遗漏这种模式,而 GSEA 能够敏锐地检测到这种协调性变化。

基因排序与通路分布
基因排序与通路分布

图 2 基因排序中通路基因的分布模式:GSEA 关注的是整体趋势而非个体显著性。

算法核心是随机游走统计量 。GSEA 沿着排序的基因列表计算富集得分(ES),遇到目标基因集的成员时累加正值,否则累减负值。最终的 ES 反映了该基因集在排序列表中的集中程度和方向性。

这种方法特别适合检测那些"温和但持续"的生物学效应,这在代谢重编程、细胞周期调控等精细过程中尤为重要。

富集得分计算
富集得分计算

图 3 GSEA 富集得分的计算过程:峰值位置和高度共同决定通路活性。

实际应用优势显而易见 。在药物作用机制研究中,GSEA 经常能发现 ORA 遗漏的靶向通路;在疾病机制解析中,它揭示的微妙分子扰动往往更接近真实的病理过程。

GSEA 体现了系统生物学的核心思想:关注网络整体行为胜过单个节点变化。它让我们从"显著基因"的束缚中解脱,转向"功能模式"的全景视角。

感兴趣的同学可了解 GSEA-P、ssGSEA 等变种算法,以及在单细胞数据中的应用策略。


以上就是今天的内容,希望对你有帮助!欢迎点赞、在看、关注、转发。