利用差异表达分析、机器学习(LASSO、SVM-RFE、随机森林)及免疫微环境分析鉴定头颈部鳞状细胞癌外泌体相关生物标志物

生信学长
2025年10月23日
差异表达分析
利用差异表达分析、机器学习(LASSO、SVM-RFE、随机森林)及免疫微环境分析鉴定头颈部鳞状细胞癌外泌体相关生物标志物

点击卡片关注,一起学习生信分析!



大家早上好,今天跟分享一篇发表在Frontiers in Immunology的文章《Machine learning-driven identification of exosome-related biomarkers in head and neck squamous cell carcinoma》。该研究通过整合多个数据集和机器学习方法,系统鉴定了头颈部鳞状细胞癌中的外泌体相关生物标志物,并深入探讨了其在免疫微环境中的作用及潜在的治疗应用价值。

Overview

研究主要结果

HNSCC中ERDEGs的鉴定

研究团队整合了四个独立的HNSCC数据集(GSE25099、GSE30784、GSE37991和GSE127165),共包含321例肿瘤样本和164例正常组织样本。主成分分析(PCA)显示,标准化前各队列间存在明显的批次效应(图1A,补充图1B)。经过ComBat批次校正后,所有队列的基因表达分布中批次效应的影响被大幅消除(图1B,补充图1B)。

利用limma软件包(p < 0.05,|log2FC| > 1),研究人员在所有数据集中发现了514个持续失调的基因。火山图显示,其中包括237个上调基因和277个下调基因(图1C)。前50个差异表达基因的层次聚类分析清楚地将肿瘤组织与正常组织区分开(图1D)。

从GeneCards数据库中筛选出878个经实验证实的外泌体相关基因(相关性评分 > 2)。通过分析差异表达基因(DEGs)与外泌体基因的交集,最终鉴定出39个外泌体相关差异表达基因(ERDEGs)(图1E)。

Figure 1
Figure 1

「图1. 差异表达分析」 。(A) 批次校正前的PCA图;(B) 批次校正后的PCA图;(C) DEGs的火山图;(D) 前50个DEGs的热图;(E) DEG与外泌体基因交集的韦恩图。

ERDEGs的功能富集分析

GO富集分析确定了多个显著富集的生物学过程、细胞组分和分子功能。最显著的生物学过程包括神经炎症反应的正向调控和白细胞激活的正向调控,表明这些基因可能参与免疫反应和神经炎症通路。囊泡腔和分泌颗粒腔的富集提示这些基因可能参与囊泡运输和分泌过程。细胞因子受体结合和蛋白酶抑制活性的富集表明这些基因在免疫信号传导和蛋白酶调控中发挥重要作用(图2A)。

KEGG通路分析确定了与这些基因密切相关的多条通路,包括流体剪切应力与动脉粥样硬化、移植物抗宿主病和铁死亡。TNF信号通路和类风湿性关节炎通路的富集表明这些基因可能在炎症反应和自身免疫性疾病中起关键作用(图2C)。

为进一步理解基因、功能和通路之间的关联,研究构建了基因-功能网络图和基因-通路网络图。基因-功能网络图展示了基因与免疫反应和神经炎症等关键功能之间的紧密联系(图2B),而基因-通路网络图阐明了这些基因如何通过参与多条重要信号通路(如IL-17信号通路、TNF信号通路等)发挥其生物学作用(图2D)。

此外,GSEA分析证实了多条重要信号通路的激活,包括细胞周期和细胞因子-细胞因子受体相互作用,这些通路表现出显著的正向富集。ECM-受体相互作用和细胞周期通路的显著富集提示其在细胞粘附和分裂中的潜在作用,这可能与组织重塑和癌症进展相关(图2E)。药物代谢细胞色素P450、外源物质代谢细胞色素P450和酪氨酸代谢等代谢通路表现出显著的负向富集,表明这些基因可能在药物代谢和外源化合物解毒中发挥重要作用(图2F)。

Figure 2
Figure 2

「图2. ERDEGs的富集分析」 。(A) ERDEGs的GO富集分析;(B) ERDEGs的功能相关网络图;(C) ERDEGs的KEGG富集分析;(D) ERDEGs的通路相关网络图;(E, F) ERDEGs的GSEA富集分析。

基于机器学习的生物标志物发现

研究采用单因素逻辑回归分析(显著性阈值p < 0.05)构建HNSCC风险模型,初步识别出39个关键ERDEGs。为提高特征选择的可靠性,本研究同时应用了三种机器学习算法——LASSO、SVM-RFE和随机森林(RF)——进行综合筛选。

LASSO回归通过引入L1正则化有效处理高维数据,在保持预测效能的同时筛选出17个关键ERDEGs。该方法特别适合具有大量特征的数据集,因为它通过选择最具影响力的变量来促进模型的稀疏性(图3A、B)。

SVM-RFE基于分类器准确性迭代消除不重要的特征,最终识别出30个最优候选基因。该技术擅长选择能最大化分类性能的特征,即使在复杂数据集中也表现出色(图3C、D)。

随机森林利用袋外误差估计和基尼重要性评分识别出17个具有诊断意义的标志基因。其稳健的集成学习方法确保即使面对噪声或高维数据,也能一致地识别出重要特征(图3E、F)。

通过韦恩图综合三种算法的结果,研究人员识别出10个诊断性ERDEGs,这些基因在不同方法中均被一致突出显示(图3G)。这种整合的特征选择策略确保了用于HNSCC风险建模的最终基因集的稳健性和可靠性。

Figure 3
Figure 3

「图3. 机器学习筛选疾病特征基因」 。(A) 交叉验证下的模型偏差变化;(B) LASSO回归系数L1范式变化;(C) 交叉验证准确性与特征数量变化;(D) 交叉验证误差与特征数量变化;(E) RF中树的数量与错误率的关系图;(F) 遗传变量对模型预测贡献的重要性排序;(G) LASSO、RF和SVM-RFE选择的特征基因韦恩图。

诊断模型的临床验证

箱线图分析显示,关键基因在对照组和治疗组之间存在显著的差异表达(所有比较的p < 0.001)。基质金属肽酶9(MMP9)、ANGPTL1、骨髓基质细胞抗原2(BST2)、泛素样蛋白3(UBL3)、杆状病毒IAP重复包含5(BIRC5)、Thy-1细胞表面抗原(THY1)、聚集素(CLU)、肌球蛋白(MYOC)、前纤维蛋白2(PFN2)和纤连蛋白1(FN1)等基因表现出明显的表达特征,其中MMP9和FN1在治疗组中表现出最显著的上调(图4A)。

相关性分析揭示了基因之间复杂的关系。FN1与THY1高度相关(r = 0.74,p < 0.001)。BIRC5与ANGPTL1(r = -0.52)和UBL3(r = -0.52)呈负相关。CLU与ANGPTL1表现出中等程度的共表达(r = 0.51)(图4B)。

Circos图分析将关键基因定位到特定的染色体区域。CLU(8号染色体)和THY1(11号染色体)位于调控细胞外基质的区域。13号染色体上的UBL3和17号染色体上的BIRC5位于与凋亡相关的区域(图4C)。

为评估LASSO风险模型识别的关键基因对HNSCC的诊断效能,采用逻辑回归诊断模型和列线图展示10个选定ERDEGs表达对HNSCC的影响。ROC曲线分析表明UBL3是最强效的单基因生物标志物(AUC = 0.927,95% CI: 0.901–0.953),超过了其他候选基因如ANGPTL1(AUC = 0.895)和MMP9(AUC = 0.885)(图4E)。

包含所有基因的多变量模型达到了卓越的诊断准确性(AUC = 0.983,95% CI: 0.973–0.991),大大超过了单个标志物(图4D)。

为严格评估模型的泛化能力,研究在完全独立的TCGA-HNSCC数据集(n = 546)上进行了独立验证,该数据集完全独立于所有先前的训练和特征选择程序。诊断模型实现了近乎完美的区分能力,AUC为0.999(95% CI: 0.996–1.000)(补充图2A)。单个生物标志物表现出强大的预测能力,包括BIRC5(AUC = 0.962)、MMP9(AUC = 0.951)和ANGPTL1(AUC = 0.889),所有10个基因的AUC均 > 0.75(补充图2B)。

校准曲线显示预测概率与实际结果之间具有强大的一致性(Brier评分 = 0.083),表观估计值与偏差校正估计值之间的差异可忽略不计(图4F)。决策曲线分析证实了在10-80%阈值概率范围内的临床效用,相对于全治疗或全不治疗策略表现出更高的净收益(图4G)。

列线图评估了单个基因对疾病风险的贡献,其中UBL3(5.5–9.5分)和FN1(3–12分)具有最高的权重。总分300分或更高表明预测风险超过90%,有助于准确分类高风险患者(图4H)。

Figure 4
Figure 4

「图4. 特征基因的构建和表征」 。(A) 比较对照组和治疗组基因表达的箱线图;(B) 相关性图揭示基因间的表达关系;(C) 环形图展示基因在染色体上的分布和关联;(D) 评估整体诊断性能的模型ROC图;(E) 每个基因的ROC图;(F) 校准曲线图比较预测概率与实际概率;(G) 决策曲线图衡量临床应用的净收益;(H) 列线图构建个体化风险预测模型。数据显示为平均值 ± SD,*P < 0.05,**P < 0.01,***P < 0.001。

免疫微环境特征分析

采用CIBERSORT方法进行免疫浸润分析,探讨免疫反应性与HNSCC之间的联系,揭示了28种免疫细胞类型的浸润情况,其中14种类型在治疗组和对照组之间表现出显著差异。中性粒细胞在HNSCC中更为普遍,而自然杀伤T细胞、活化CD4 T细胞、活化B细胞和记忆B细胞在对照组中更为普遍(图5A)。

Spearman分析显示免疫细胞与ERDEGs之间存在联系,如图5B所示。UBL3在活化CD8 T细胞、γδ T细胞、髓系来源抑制细胞(MDSCs)和自然杀伤细胞中普遍存在,与炎症相关信号通路呈正相关,可能在先天免疫控制中发挥重要作用。

BIRC5在未成熟B细胞、活化CD8 T细胞和调节性T细胞中表现出强烈的负相关,提示这些先天免疫细胞在T细胞增殖过程中受到抑制。

ANGPTL1在效应记忆CD4 T细胞和髓系来源抑制细胞(MDSCs)中显著表达,可能有助于免疫抑制和肿瘤微环境的调节。

MYOC在效应记忆CD4 T细胞和2型辅助T细胞中显著表达,提示其可能影响抗原呈递功能。

Figure 5
Figure 5

「图5. 特征基因的免疫特性」 。(A) 免疫差异图比较对照组和治疗组之间免疫细胞分布的变化;(B) 相关热图展示基因与免疫细胞之间的相关性和显著差异。数据显示为平均值 ± SD,*P < 0.05,**P < 0.01,***P < 0.001。

治疗靶点探索

从Enrichr平台的DSigDB数据库中收集了调节关键基因表达的小分子药物。根据P值产生的结果表示小分子与基因之间的接近程度。图6A和补充表2展示了关键基因的潜在小分子治疗药物。

为阐明关键基因蛋白与其相应药物之间的结合活性,进行了HNSCC相关关键基因(BIRC5、MMP9、THY1、FN1、CLU)与前五种小分子药物的分子对接。利用相同的方法获得了受体-配体对接结果。在分子对接中,主要考虑了分子间作用力,特别是氢键。图6B-F展示了小分子药物与蛋白质的对接构型。

Figure 6
Figure 6

「图6. 小分子药物的分子对接」 。(A) 药物调控网络;3D结构的分子对接显示了BIRC5与5-hydroxy-1-(4-hydroxy-3-methoxyphenyl)decan-3-one (B)、MMP9与倍氯米松 (C)、THY1与UNII-768N7QO4KH (D)、FN1与乙二醇二甲基丙烯酸酯 (E)、CLU与seocalcitol (F)的分子对接结果。

调控网络分析

本研究建立了RNA结合蛋白(RBPs)的调控网络,其中绿色节点表示RBPs,橙色节点表示靶基因。作为网络的核心,BIRC5、FN1、CLU、MMP9和UBL3等基因受到多种RBPs的共同调控。BIRC5是一个公认的抗凋亡基因,对细胞存活和致癌作用至关重要,受多种RNA结合蛋白调控,可能在转录后水平受到复杂调控。FN1是一种细胞外基质蛋白,对细胞粘附、迁移和组织修复至关重要,其与多个RBPs的相互作用表明在RNA水平上存在复杂的调控机制(图7A)。

本研究还建立了转录因子(TF)调控网络,其中黄色节点表示TFs,橙色节点表示靶基因。作为网络的核心,MMP9、BIRC5、CLU、BST2和THY1等基因受到多种转录因子的共同调控。MMP9是细胞外基质降解和癌症扩散的关键基因,受多个转录因子调控,可能在细胞迁移和组织重塑过程中受到精细调控。BIRC5作为一个对细胞存活和致癌作用至关重要的抗凋亡基因,受多个转录因子调控,表明其在转录水平上受到不同信号通路的调控(图7B)。

Figure 7
Figure 7

「图7. (A) RBP调控网络图(RNA结合蛋白);(B) TF转录因子调控网络图」

ANGPTL1抑制HNSCC细胞增殖、迁移和侵袭

使用qRT-PCR检测不同HNSCC细胞系中ANGPTL1 mRNA表达的差异,结果显示HNSCC细胞中的ANGPTL1 mRNA表达水平显著低于HOK细胞系(图8A)。

来自HPA数据库的HNSCC样本显示ANGPTL1蛋白表达缺失(染色强度评分 = 1),而正常口腔黏膜维持中等表达(评分 = 2)(补充图3A),并且在TNM II-III期患者中表达进一步降低(I/II期 vs III/IV期:log2FC = 0.47,p = 0.0038)(补充图3B)。

选择了两种ANGPTL1低表达的头颈部鳞状细胞癌细胞系SCC9和CAL27作为后续研究对象。研究构建了ANGPTL1基因过表达模型,并通过转染将vector-NC和oe-ANGPTL1导入HNSCC细胞。CCK-8实验结果显示,SCC9和CAL27细胞的ANGPTL1过表达组的细胞增殖率显著低于对照组(图8B)。

克隆形成实验结果显示,SCC9和CAL27细胞中ANGPTL1过表达组的细胞克隆能力显著受到抑制(图8C)。

为进一步验证ANGPTL1蛋白在HNSCC细胞迁移和侵袭能力中的作用,划痕实验结果显示,在SCC9和CAL27细胞中,ANGPTL1过表达组的细胞迁移能力显著低于对照组(图8D)。

在Transwell实验中,HNSCC细胞SCC9和CAL27过表达ANGPTL1蛋白后,观察到细胞的跨膜侵袭能力下降(图8E)。

Figure 8
Figure 8

「图8. ANGPTL1过表达对HNSCC细胞功能表型的影响」 。(A) 各种HNSCC细胞系中ANGPTL1 mRNA的qRT-PCR检测结果;(B) ANGPTL1过表达影响的HNSCC细胞CCK-8增殖实验;(C) 克隆形成实验验证ANGPTL1过表达对HNSCC细胞增殖的影响;(D) 划痕实验验证ANGPTL1过表达对HNSCC细胞迁移能力的影响;(E) Transwell实验验证ANGPTL1过表达对HNSCC细胞迁移和侵袭能力的影响。数据显示为平均值 ± SD,*P < 0.05,**P < 0.01,***P < 0.001,****P < 0.0001。

对这个思路感兴趣的老师可以联系。





送你一份科研小礼物,开启科研生涯!

点击即可领取:

》〉戳我,领取一份科研小礼物