TCGA数据挖掘(10):什么是KEGG通路分析?如何挖掘单基因相关信号通路(R代码可复现)

生信学长
2025年08月15日
TCGA数据挖掘
TCGA数据挖掘(10):什么是KEGG通路分析?如何挖掘单基因相关信号通路(R代码可复现)

大家好,今天继续讲KEGG富集分析

通过 KEGG通路富集分析 ,我们将系统性地探索与SERPINE1相关的差异表达基因参与了哪些重要的生物学通路,并用专业的可视化方法展示这些发现。

KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是全球最权威的生物通路数据库之一,通过对差异表达基因进行KEGG富集分析,我们能够从分子水平理解SERPINE1在肿瘤发生发展中的功能机制,为后续的实验设计和临床应用提供重要指导。

图1:KEGG通路富集分析柱状图

1. 基因ID转换:构建分析基础

我们首先将基因符号转换为Entrez ID,这是进行KEGG富集分析的必要步骤。

# === 代码块 1:基因ID映射与转换 ===
library("clusterProfiler")
library("org.Hs.eg.db")
library("enrichplot")
library("ggplot2")

# 读取差异表达基因数据
gene_group_diff_matrix <- read.table("data/gene_grouping_diff_matrix.tsv"
                                    header = TRUE, sep = "\t", check.names = FALSE)

# 提取基因名称并转换为Entrez ID
genes <- unique(as.vector(gene_group_diff_matrix[, 1]))
entrez_ids <- mget(genes, org.Hs.egSYMBOL2EG, ifnotfound = NA)
entrez_ids <- as.character(entrez_ids)
gene <- entrez_ids[entrez_ids != "NA"]

📈 运行结果

基因ID转换成功完成!我们从 382个输入基因 中成功获得了 318个有效的Entrez ID ,转换率达到83.2%。这为后续的通路富集分析提供了高质量的基因集合。

2. KEGG通路富集分析:系统性功能解读

利用clusterProfiler包进行全面的KEGG通路富集分析,识别显著富集的生物学通路。

# === 代码块 2:KEGG富集分析 ===
# 设置分析参数
pvalue_filter <- 0.05
qvalue_filter <- 0.05

# 执行KEGG富集分析
kk <- enrichKEGG(gene = gene, organism = "hsa", pvalueCutoff = 1, qvalueCutoff = 1)
KEGG <- as.data.frame(kk)

# 根据显著性阈值筛选结果
KEGG_filtered <- KEGG[(KEGG$pvalue < pvalue_filter & KEGG$qvalue < qvalue_filter),]

# 生成分析摘要
kegg_summary <- data.frame(
  Total_Pathways = nrow(KEGG),
  Significant_Pathways = nrow(KEGG_filtered),
  P_Value_Threshold = pvalue_filter,
  Q_Value_Threshold = qvalue_filter,
  Total_Genes_Input = length(genes),
  Valid_Entrez_IDs = length(gene)
)

运行结果

指标
数值
总通路数
204
显著富集通路数
32
P值阈值
0.05
Q值阈值
0.05
输入基因总数
382
有效Entrez ID数
318

结果解读:

富集分析结果令人振奋!在204个检测到的KEGG通路中,我们发现了 32个显著富集的通路 (P < 0.05, Q < 0.05),富集率高达15.7%。这表明与SERPINE1相关的差异表达基因具有明确的功能指向性。

3. 核心通路识别:解析关键生物学过程

深入分析排名前10的显著富集通路,揭示SERPINE1的核心功能机制。

# === 代码块 3:核心通路分析 ===
# 提取排名前10的显著通路
top_pathways <- head(KEGG_filtered[order(KEGG_filtered$pvalue), ], 10)
pathway_summary <- data.frame(
  Pathway_ID = top_pathways$ID,
  Pathway_Name = top_pathways$Description,
  Gene_Count = top_pathways$Count,
  P_Value = top_pathways$pvalue,
  Q_Value = top_pathways$qvalue,
  Gene_Ratio = top_pathways$GeneRatio
)

📈 运行结果

通路名称
基因数
P值
Q值
基因比例
AGE-RAGE signaling pathway in diabetic complications
13
1.50e-09
1.05e-07
13/134
Malaria
10
1.51e-09
1.05e-07
10/134
Amoebiasis
13
1.92e-09
1.05e-07
13/134
Cytokine-cytokine receptor interaction
20
6.45e-09
2.65e-07
20/134
Rheumatoid arthritis
12
8.23e-09
2.70e-07
12/134
Viral protein interaction with cytokine and cytokine receptor
11
1.52e-07
4.16e-06
11/134
IL-17 signaling pathway
10
8.65e-07
2.03e-05
10/134
Cytoskeleton in muscle cells
15
9.95e-07
2.04e-05
15/134
Protein digestion and absorption
10
2.19e-06
3.99e-05
10/134
ECM-receptor interaction
9
4.37e-06
7.18e-05
9/134

结果解读:

这些核心通路揭示了SERPINE1的多重生物学功能:

  1. 炎症反应调控 :多个通路(AGE-RAGE、IL-17、细胞因子受体相互作用)均与炎症反应密切相关
  2. 细胞外基质重塑 :ECM-受体相互作用和蛋白质消化吸收通路显示其在组织重塑中的作用
  3. 免疫应答参与 :疟疾、阿米巴病等感染性疾病通路提示其在免疫反应中的重要性

🎨 4. 可视化展示:直观呈现富集结果

通过柱状图和点图两种方式展示KEGG富集分析结果。

# === 代码块 4:可视化绘制 ===
# 绘制富集通路柱状图
barplot(kk_filtered, drop = TRUE, showCategory = 20
        label_format = 30, color = "qvalue")

# 绘制富集通路点图
dotplot(kk_filtered, showCategory = 20, orderBy = "GeneRatio"
        label_format = 30, color = "qvalue")

📊 运行结果

图1:KEGG通路富集分析柱状图
图1:KEGG通路富集分析柱状图

结果解读:

柱状图清晰地展示了各个显著富集通路的统计学意义。柱子的长度代表富集的基因数量,颜色深浅反映Q值的大小(颜色越深,显著性越高)。我们可以看到:

  • AGE-RAGE信号通路 细胞因子-细胞因子受体相互作用 通路的富集基因数最多
  • 大部分显著通路的Q值都极小(< 1e-05),显示出极强的统计学显著性
  • 通路功能涵盖了从炎症反应到组织重塑的多个生物学过程
图2:KEGG通路富集分析点图
图2:KEGG通路富集分析点图

结果解读:

点图提供了更丰富的信息维度:

  • X轴(GeneRatio) :表示该通路中富集基因占输入基因的比例
  • 点的大小 :代表富集的基因数量
  • 颜色深浅 :反映Q值的显著性水平

从图中可以观察到,虽然某些通路(如疟疾、阿米巴病)的基因比例较高,但 细胞因子-细胞因子受体相互作用 通路由于富集基因数量最多,在功能网络中可能占据更重要的地位。

5. 功能机制解读:从通路到生物学意义

基于富集分析结果,我们可以构建SERPINE1的功能调控网络模型。

核心功能模块:

  1. 炎症调控模块 :AGE-RAGE信号通路、IL-17信号通路等,提示SERPINE1在慢性炎症和组织损伤中发挥重要作用

  2. 免疫应答模块 :病原体感染相关通路(疟疾、阿米巴病)显示其在宿主免疫防御中的参与

  3. 组织重塑模块 :ECM-受体相互作用、胶原蛋白代谢等通路揭示其在组织纤维化和创伤愈合中的功能

  4. 细胞通信模块 :细胞因子网络相关通路表明其作为细胞间信号传导的重要媒介

完整代码联系老师免费获取(备注“TCGA KEGG”)


以上就是今天的内容,希望对你有帮助!欢迎点赞、在看、关注、转发。