上一篇文章中,我们讲了为什么要做GSEA富集分析,今天跟大家聊一下GSEA基因集富集分析的原理,以及GSEA图如何看。
我们先简单过一下GO/KEGG的不足。主要有两个:
-
依赖差异基因筛选: 只关注显著上调/下调的基因(如p<0.05),忽略表达变化微弱但生物学意义重要的基因。如果某个基因的p值等于0.51,那么这个基因就不会加入富集分析。 -
无法捕捉整体趋势: 在差异表达分析结果中根据log2FC筛选出来的差异基因,然后用这些差异基因做GO/KEGG富集分析,富集到的通路中参与的基因有些是上调的,有些是下调的,因此我们无法判断在该通路的整体趋势
由于上面这两个原因,所以引进了GSEA基因集富集分析。
基因集富集分析(Gene Set Enrichment Analysis, GSEA)不需要预先筛选差异基因,直接分析所有基因在排序列表中的分布模式,挖掘基因集(如通路、功能模块)的协同变化规律。我们一起看一下GSEA的原理。
GSEA的核心原理:从“排序基因”到“富集信号”
GSEA的数学逻辑,主要包含以下三步
-
基因排序 -
根据基因在两组样本中的差异程度(如log2FC、信号强度)从高到低排序。 -
例如:肿瘤vs正常组织中,按差异基因表达量的倍数变化log2FC从“最强上调”到“最强下调”排序。 -
富集得分(Enrichment Score, ES)计算 -
从排序列表的顶端开始“行走”,遇到基因集中的基因则加分,否则减分。 -
最终ES值为路径中的最大偏离值(反映基因集的富集程度)。 -
核心思想:检验目标基因集是否集中在排序列表的顶部(显著上调)或底部(显著下调)。
-
显著性评估 -
置换检验(Permutation Test):通过随机打乱样本标签或基因标签生成背景分布,计算ES的显著性(p值)。 -
多重检验校正:控制假阳性率(常用FDR值)。
GESA富集分析后,得到下面的结果图,我们来解读这个结果图
可以看到,我们一个选择5个KEGG的通路基因集做GSEA富集分析
这个图主要分3部分
第1个部分是 富集分数折线图
-
横轴(x轴) : 基因按差异程度排序的位置(从左到右,差异从大到小)。 -
纵轴(y轴) : 实时累积分数的变化(反映目标基因集的富集趋势)。 -
关键点 : -
ES值 :折线图中距离零点的最大偏差(峰顶或峰谷),代表富集强度。 -
红色虚线 :ES值对应的位置,左侧为核心基因(ES>0表示基因集显著上调,ES<0表示下调)。
第2个部分是 Hits图(条形码图)
显示目标基因集中每个基因在排序列表中的具体位置,比如图中的绿色通路 KEGG_OLFACTORY_TRANSDUCTION ,在中间部分的条形码图中,如果 KEGG_OLFACTORY_TRANSDUCTION 通路的基因集命中排序后的差异基因,则在对应的基因位置画条形(即绿色的竖线)
第3个部分 Rank指标分布图
展示所有基因的排序指标值分布(如log2FC)。
Rank指标可以是log2FC,信噪比等等,具体看代码选择的方法,但是Rank指标的本质就是能显示两组间的差异的一种数值。
通过这三部分图,可以直观判断目标基因集是否在实验数据中显著富集,以及其表达变化趋势(上调/下调)。比如绿色、青色、深红色的通路是上调的,而蓝色和浅红色的通路是下调的
总结一下,GSEA(基因集富集分析)通过直接分析所有基因在排序列表中的分布模式,解决了传统GO/KEGG富集分析的不足:即无需依赖差异基因筛选,能够捕捉基因集的整体协同变化趋势。其核心原理包括基因排序、富集得分(ES)计算和显著性评估,最终通过富集分数折线图、条形码图和Rank指标分布图直观展示结果。GSEA能发现显著上调或下调的通路,还能揭示微弱但一致的基因集变化。
以上就是今天的内容,希望对你有帮助!欢迎点赞、在看、关注、转发。