最近有些同学反馈,TCGA官网下载Cart文件经常失败,有的是的文件不完整,有的是没有弹出下载文件,今晚跟大家分享一期另一种能成功下载TCGA肿瘤数据的方式。
TCGA的简单介绍
TCGA(The Cancer Genome Atlas,癌症基因组图谱)由美国国家癌症研究所(NCI)和人类基因组研究所(NHGRI)于2006年联合启动,旨在通过大规模基因组测序,绘制癌症的基因组变异图谱。目前收录了33种癌症类型、超过2万个样本的多组学数据,涵盖基因组变异、mRNA/miRNA表达、DNA甲基化、临床信息等。
我们看下如何用代码来下载肿瘤转录组数据,这是另一种能下载TCGA肿瘤数据的方式,如果页面无法下载成功,可以使用下面这种方法。
下面我们以 TCGA-LUAD 肺腺癌转录组数据为例子来展示。
1. 加载工具包
# 安装必要工具包
if (!require("BiocManager")) install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")
# 加载核心包
library(TCGAbiolinks)
library(SummarizedExperiment)
2. 查询肿瘤数据
我们使用 TCGA-LUAD 肺腺癌转录组数据为例子,其他肿瘤数据编号参考文章后面的表格
# 查询肺腺癌转录组数据
query <- GDCquery(
project = "TCGA-LUAD", # 其他
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "STAR - Counts"
)
# 查看查询结果
head(query$results[[1]][,1:5])
这是查询结果信息
# 查看TCGA-LUAD的样本总数
cat("TCGA-LUAD样本总数:", nrow(query$results[[1]]))
我们可以看到,TCGA-LUAD的样本总数有600个。
2. 批量下载
在上一部查询数据后,TCGA-LUAD共有600个样本,下面我们会开始下载这600个样本
# 下载数据(TCGA-LUAD的转录组数据约2.5GB)
GDCdownload(query, method = "api")
运行这行代码后,控制台显示如下图,表示开始下载文件,大概需要五到十分钟
下载成功后,我们可以看到文件夹中多了一个名为
GDCdata
的文件夹,里面就存放着下载好的TCGA-LUAD转录组数据。
数据下载成功后,我们就可以做后续的差异分析等。下面简单展示一下绘制TP53基因在肿瘤组和正常组间的差异表达箱线图。
3. 数据预处理
# 数据格式转换
data <- GDCprepare(query)
# 查看基因表达矩阵
exp_matrix <- assay(data)
gene_metadata <- rowData(data)
rownames(exp_matrix) <- gene_metadata$gene_name # 将基于名称设置为行名
# 打印表达矩阵
head(exp_matrix)
可以看到,count表达矩阵共有60600个基因,600个样本
4. 绘制TP53基因在肿瘤组和正常组间的差异表达箱线图
# 提取样本类型信息
sample_type <- colData(data)$sample_type
# 将样本类型转换为正常组和肿瘤组
group <- ifelse(grepl("Normal", sample_type), "Normal", "Tumor")
# 绘制TP53基因表达箱线图
boxplot(exp_matrix["TP53",] ~ group,
main = "TP53 Expression in LUAD",
xlab = "Sample Type",
ylab = "Expression Level",
col = c("#E69F00", "#56B4E9"))
TP53基因在不同样本中的表达水平箱线图
5. 其他技巧:批量下载多癌种
如果要批量下载多种肿瘤数据,可以使用下面脚本
# 定义癌症类型列表
projects <- c("TCGA-LUAD", "TCGA-BRCA", "TCGA-COAD")
# 批量下载函数
batch_download <- function(project){
query <- GDCquery(
project = project,
data.category = "Transcriptome Profiling"
)
GDCdownload(query)
}
# 执行批量下载
lapply(projects, batch_download)
附录:TCGA肿瘤编号
| Cohort | 英文名称 | 中文名称 |
|----------|----------------------------------------------------|--------------------------------|
| ACC | Adrenocortical carcinoma | 肾上腺皮质癌 |
| BLCA | Bladder Urothelial Carcinoma | 膀胱尿路上皮癌 |
| BRCA | Breast invasive carcinoma | 乳腺浸润癌 |
| CESC | Cervical squamous cell carcinoma and endocervical adenocarcinoma | 宫颈鳞癌和腺癌 |
| CHOL | Cholangiocarcinoma | 胆管癌 |
| COAD | Colon adenocarcinoma | 结肠癌 |
| COADREAD | Colon adenocarcinoma/Rectum adenocarcinoma Esophageal carcinoma | 结直肠癌 |
| DLBC | Lymphoid Neoplasm Diffuse Large B-cell Lymphoma | 弥漫性大B细胞淋巴瘤 |
| ESCA | Esophageal carcinoma | 食管癌 |
| FPPP | FFPE Pilot Phase II | FFPE试点二期 |
| GBM | Glioblastoma multiforme | 多形成性胶质细胞瘤 |
| GBMLGG | Glioma | 胶质瘤 |
| HNSC | Head and Neck squamous cell carcinoma | 头颈鳞状细胞癌 |
| KICH | Kidney Chromophobe | 肾嫌色细胞癌 |
| KIPAN | Pan-kidney cohort (KICH+KIRC+KIRP) | 混合肾癌 |
| KIRC | Kidney renal clear cell carcinoma | 肾透明细胞癌 |
| KIRP | Kidney renal papillary cell carcinoma | 肾乳头状细胞癌 |
| LAML | Acute Myeloid Leukemia | 急性髓细胞样白血病 |
| LGG | Brain Lower Grade Glioma | 脑低级别胶质瘤 |
| LIHC | Liver hepatocellular carcinoma | 肝细胞肝癌 |
| LUAD | Lung adenocarcinoma | 肺腺癌 |
| LUSC | Lung squamous cell carcinoma | 肺鳞癌 |
| MESO | Mesothelioma | 间皮瘤 |
| OV | Ovarian serous cystadenocarcinoma | 卵巢浆液性囊腺癌 |
| PAAD | Pancreatic adenocarcinoma | 胰腺癌 |
| PCPG | Pheochromocytoma and Paraganglioma | 嗜铬细胞瘤和副神经节瘤 |
| PRAD | Prostate adenocarcinoma | 前列腺癌 |
| READ | Rectum adenocarcinoma | 直肠腺癌 |
| SARC | Sarcoma | 肉瘤 |
| SKCM | Skin Cutaneous Melanoma | 皮肤黑色素瘤 |
| STAD | Stomach adenocarcinoma | 胃癌 |
| STES | Stomach and Esophageal carcinoma | 胃和食管癌 |
| TGCT | Testicular Germ Cell Tumors | 睾丸癌 |
| THCA | Thyroid carcinoma | 甲状腺癌 |
| THYM | Thymoma | 胸腺癌 |
| UCEC | Uterine Corpus Endometrial Carcinoma | 子宫内膜癌 |
| UCS | Uterine Carcinosarcoma | 子宫肉瘤 |
| UVM | Uveal Melanoma | 葡萄膜黑色素瘤 |
完整代码联系老师免费获取(备注“TCGA数据下载代码”)
以上就是今天的内容,希望对你有帮助!欢迎点赞、在看、关注、转发。