如何解决TCGA官网页面下载失败问题?

生信学长
2025年03月08日
TCGA数据挖掘
如何解决TCGA官网页面下载失败问题?

最近有些同学反馈,TCGA官网下载Cart文件经常失败,有的是的文件不完整,有的是没有弹出下载文件,今晚跟大家分享一期另一种能成功下载TCGA肿瘤数据的方式。

TCGA的简单介绍

TCGA(The Cancer Genome Atlas,癌症基因组图谱)由美国国家癌症研究所(NCI)和人类基因组研究所(NHGRI)于2006年联合启动,旨在通过大规模基因组测序,绘制癌症的基因组变异图谱。目前收录了33种癌症类型、超过2万个样本的多组学数据,涵盖基因组变异、mRNA/miRNA表达、DNA甲基化、临床信息等。

我们看下如何用代码来下载肿瘤转录组数据,这是另一种能下载TCGA肿瘤数据的方式,如果页面无法下载成功,可以使用下面这种方法。

下面我们以 TCGA-LUAD 肺腺癌转录组数据为例子来展示。

1. 加载工具包

# 安装必要工具包
if (!require("BiocManager")) install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")

# 加载核心包
library(TCGAbiolinks)
library(SummarizedExperiment)

2. 查询肿瘤数据

我们使用 TCGA-LUAD 肺腺癌转录组数据为例子,其他肿瘤数据编号参考文章后面的表格

# 查询肺腺癌转录组数据
query <- GDCquery(
  project = "TCGA-LUAD"# 其他
  data.category = "Transcriptome Profiling",
  data.type = "Gene Expression Quantification",
  workflow.type = "STAR - Counts"
)

# 查看查询结果
head(query$results[[1]][,1:5])

这是查询结果信息

# 查看TCGA-LUAD的样本总数
cat("TCGA-LUAD样本总数:", nrow(query$results[[1]]))

我们可以看到,TCGA-LUAD的样本总数有600个。

2. 批量下载

在上一部查询数据后,TCGA-LUAD共有600个样本,下面我们会开始下载这600个样本

# 下载数据(TCGA-LUAD的转录组数据约2.5GB)
GDCdownload(query, method = "api")

运行这行代码后,控制台显示如下图,表示开始下载文件,大概需要五到十分钟

下载成功后,我们可以看到文件夹中多了一个名为 GDCdata 的文件夹,里面就存放着下载好的TCGA-LUAD转录组数据。

数据下载成功后,我们就可以做后续的差异分析等。下面简单展示一下绘制TP53基因在肿瘤组和正常组间的差异表达箱线图。

3. 数据预处理

# 数据格式转换
data <- GDCprepare(query)

# 查看基因表达矩阵
exp_matrix <- assay(data)
gene_metadata <- rowData(data)
rownames(exp_matrix) <- gene_metadata$gene_name # 将基于名称设置为行名

# 打印表达矩阵
head(exp_matrix)

可以看到,count表达矩阵共有60600个基因,600个样本

4. 绘制TP53基因在肿瘤组和正常组间的差异表达箱线图

# 提取样本类型信息
sample_type <- colData(data)$sample_type

# 将样本类型转换为正常组和肿瘤组
group <- ifelse(grepl("Normal", sample_type), "Normal""Tumor")

# 绘制TP53基因表达箱线图
boxplot(exp_matrix["TP53",] ~ group,
        main = "TP53 Expression in LUAD",
        xlab = "Sample Type",
        ylab = "Expression Level",
        col = c("#E69F00""#56B4E9"))

TP53基因在不同样本中的表达水平箱线图

5. 其他技巧:批量下载多癌种

如果要批量下载多种肿瘤数据,可以使用下面脚本

# 定义癌症类型列表
projects <- c("TCGA-LUAD""TCGA-BRCA""TCGA-COAD")

# 批量下载函数
batch_download <- function(project){
  query <- GDCquery(
    project = project,
    data.category = "Transcriptome Profiling"
  )
  GDCdownload(query)
}

# 执行批量下载
lapply(projects, batch_download)

附录:TCGA肿瘤编号

| Cohort   | 英文名称                                           | 中文名称                       |
|----------|----------------------------------------------------|--------------------------------|
| ACC      | Adrenocortical carcinoma                           | 肾上腺皮质癌                   |
| BLCA     | Bladder Urothelial Carcinoma                       | 膀胱尿路上皮癌                 |
| BRCA     | Breast invasive carcinoma                          | 乳腺浸润癌                     |
| CESC     | Cervical squamous cell carcinoma and endocervical adenocarcinoma | 宫颈鳞癌和腺癌                 |
| CHOL     | Cholangiocarcinoma                                 | 胆管癌                         |
| COAD     | Colon adenocarcinoma                               | 结肠癌                         |
| COADREAD | Colon adenocarcinoma/Rectum adenocarcinoma Esophageal carcinoma | 结直肠癌                       |
| DLBC     | Lymphoid Neoplasm Diffuse Large B-cell Lymphoma    | 弥漫性大B细胞淋巴瘤            |
| ESCA     | Esophageal carcinoma                               | 食管癌                         |
| FPPP     | FFPE Pilot Phase II                                | FFPE试点二期                   |
| GBM      | Glioblastoma multiforme                            | 多形成性胶质细胞瘤             |
| GBMLGG   | Glioma                                             | 胶质瘤                         |
| HNSC     | Head and Neck squamous cell carcinoma              | 头颈鳞状细胞癌                 |
| KICH     | Kidney Chromophobe                                 | 肾嫌色细胞癌                   |
| KIPAN    | Pan-kidney cohort (KICH+KIRC+KIRP)                 | 混合肾癌                       |
| KIRC     | Kidney renal clear cell carcinoma                  | 肾透明细胞癌                   |
| KIRP     | Kidney renal papillary cell carcinoma              | 肾乳头状细胞癌                 |
| LAML     | Acute Myeloid Leukemia                             | 急性髓细胞样白血病             |
| LGG      | Brain Lower Grade Glioma                           | 脑低级别胶质瘤                 |
| LIHC     | Liver hepatocellular carcinoma                     | 肝细胞肝癌                     |
| LUAD     | Lung adenocarcinoma                                | 肺腺癌                         |
| LUSC     | Lung squamous cell carcinoma                       | 肺鳞癌                         |
| MESO     | Mesothelioma                                       | 间皮瘤                         |
| OV       | Ovarian serous cystadenocarcinoma                  | 卵巢浆液性囊腺癌               |
| PAAD     | Pancreatic adenocarcinoma                          | 胰腺癌                         |
| PCPG     | Pheochromocytoma and Paraganglioma                 | 嗜铬细胞瘤和副神经节瘤         |
| PRAD     | Prostate adenocarcinoma                            | 前列腺癌                       |
| READ     | Rectum adenocarcinoma                              | 直肠腺癌                       |
| SARC     | Sarcoma                                            | 肉瘤                           |
| SKCM     | Skin Cutaneous Melanoma                            | 皮肤黑色素瘤                   |
| STAD     | Stomach adenocarcinoma                             | 胃癌                           |
| STES     | Stomach and Esophageal carcinoma                   | 胃和食管癌                     |
| TGCT     | Testicular Germ Cell Tumors                        | 睾丸癌                         |
| THCA     | Thyroid carcinoma                                  | 甲状腺癌                       |
| THYM     | Thymoma                                            | 胸腺癌                         |
| UCEC     | Uterine Corpus Endometrial Carcinoma               | 子宫内膜癌                     |
| UCS      | Uterine Carcinosarcoma                             | 子宫肉瘤                       |
| UVM      | Uveal Melanoma                                     | 葡萄膜黑色素瘤                 |

完整代码联系老师免费获取(备注“TCGA数据下载代码”)


以上就是今天的内容,希望对你有帮助!欢迎点赞、在看、关注、转发。