生信技能

生信技能

GEO、ENA、SRA数据库科普与下载全攻略

2025-11-23

GEO、ENA、SRA数据库科普与下载全攻略

GBhouse专用扉页.gif

什么是 GEO、ENA 和 SRA？

在基因组学、转录组学和单细胞研究中，公开数据库是科研的宝藏。不同数据库特点略有不同：

数据库	机构	数据类型	主要特点
GEO (Gene Expression Omnibus)	NCBI	表达矩阵、微阵列、RNA-seq、ChIP-seq	方便获取已处理的表达矩阵和样本信息，适合复现分析和教学
ENA (European Nucleotide Archive)	EBI	原始测序数据（FASTQ）、DNA/RNA/宏基因组	数据全面，支持 FTP / Aspera 高速下载，适合大规模原始数据分析
SRA (Sequence Read Archive)	NCBI	原始测序数据（FASTQ/BAM）	与 ENA 数据高度互通，是获取原始测序 reads 的重要来源，支持命令行和工具下载

为什么要用这些数据库？

复现研究：验证已有分析结果，提高科学可信度
教学练习：用真实数据训练 RNA-seq、GWAS、单细胞分析技能
Meta 分析：整合不同实验，提高统计能力
节省成本：无需重复测序即可获得大样本数据

如何快速下载数据？

（1）GEO 数据下载

GEO 提供 GEOquery R 包，可直接获取表达矩阵和样本信息：

# 安装 GEOquery

if(!require(GEOquery))

BiocManager::install("GEOquery")

library(GEOquery)

# 下载 GEO 系列数据

gse <- getGEO("GSEXXXXX", GSEMatrix = TRUE)

exprSet <- exprs(gse[[1]])

# 提取表达矩阵

phenoData <- pData(gse[[1]])

# 提取样本信息

# 查看数据

head(exprSet)

head(phenoData)

GEO 页面也提供 TXT / SOFT 文件 直接下载，适合非程序用户。

（2）ENA 数据下载

ENA 原始数据通常为 FASTQ 文件，可使用 Aspera / FTP / wget 下载：

方法一：Aspera 快速下载

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \ era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/ERRXXXX/ERRXXXXXX/ERRXXXXXX.fastq.gz ./

方法二：批量下载

# 创建包含 Run ID 的列表 run_list.txt

for id in $(cat run_list.txt); do ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \ era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$id/$id.fastq.gz ./ done

注意：Aspera 速度快，但需安装 Aspera Connect 并配置密钥。ENA 网站也可用 FTP/HTTPS 下载。

（3）SRA 数据下载

SRA 数据也可通过 NCBI SRA Toolkit 下载，支持 FASTQ 格式：

# 安装 SRA Toolkit 并设置路径

# 下载单个样本 (以 SRRXXXXX 为例)

prefetch SRRXXXXX

# 转换为 FASTQ

fastq-dump --split-files SRRXXXXX

SRA Toolkit 支持批量下载，用 --option-file 指定一个包含多个 SRR 的文本文件。

示例

下载GSE247382数据

访问GEO官网，输入GSE247382

展示数据基本信息

表达矩阵和样本信息，原始fastq通过点击SRA RUn SELECTOR跳转到SRA网站

选择样本后，点击accession list 获得样本SRR编号，通过SRA Toolkit下载

或者到ENA数据库检索BioProject编号：PRJNA1037470

选择Aspera获取下载链接，（如：fasp.sra.ebi.ac.uk:/vol1/fastq/SRR267/038/SRR26767238/SRR26767238.fastq.gz）下载fastq文件，速度更快。

小结

数据库	数据类型	优势	下载方式
GEO	表达矩阵 / 高通量分析	易分析、便于复现	GEOquery / SOFT 文件
ENA	原始测序数据	数据全面、原始	Aspera / FTP / wget
SRA	原始测序数据	与 ENA 高度互通，支持 NCBI 工具	SRA Toolkit / fastq-dump

使用 GEO 获取 表达矩阵，使用 ENA/SRA 获取 原始测序数据，可以快速搭建自己的分析流程。

上一篇：人类胎盘高通量mRNA测序图谱揭示孕早期至孕晚期转录组重塑的巨大变化下一篇：Bulk RNA-seq 生信分析全流程实例版（一）