生信技能

生信技能

GEO、ENA、SRA数据库科普与下载全攻略

2025-11-23

GEO、ENA、SRA数据库科普与下载全攻略

GBhouse专用扉页.gif

image.png

什么是 GEO、ENA 和 SRA?

在基因组学、转录组学和单细胞研究中,公开数据库是科研的宝藏。不同数据库特点略有不同:


数据库
机构
数据类型
主要特点
GEO (Gene Expression Omnibus)
NCBI
表达矩阵、微阵列、RNA-seq、ChIP-seq
方便获取已处理的表达矩阵和样本信息,适合复现分析和教学
ENA (European Nucleotide Archive)
EBI
原始测序数据(FASTQ)、DNA/RNA/宏基因组
数据全面,支持 FTP / Aspera 高速下载,适合大规模原始数据分析
SRA (Sequence Read Archive)
NCBI
原始测序数据(FASTQ/BAM)
与 ENA 数据高度互通,是获取原始测序 reads 的重要来源,支持命令行和工具下载

为什么要用这些数据库?

  • 复现研究:验证已有分析结果,提高科学可信度

  • 教学练习:用真实数据训练 RNA-seq、GWAS、单细胞分析技能

  • Meta 分析:整合不同实验,提高统计能力

  • 节省成本:无需重复测序即可获得大样本数据


如何快速下载数据?

(1)GEO 数据下载

GEO 提供 GEOquery R 包,可直接获取表达矩阵和样本信息:

# 安装 GEOquery 

if(!require(GEOquery)) 

BiocManager::install("GEOquery") 

library(GEOquery) 

# 下载 GEO 系列数据  

gse <- getGEO("GSEXXXXX", GSEMatrix = TRUE) 

exprSet <- exprs(gse[[1]]) 

# 提取表达矩阵 

phenoData <- pData(gse[[1]]) 

# 提取样本信息 

# 查看数据 

head(exprSet) 

head(phenoData)

GEO 页面也提供 TXT / SOFT 文件 直接下载,适合非程序用户。


(2)ENA 数据下载

ENA 原始数据通常为 FASTQ 文件,可使用 Aspera / FTP / wget 下载:

方法一:Aspera 快速下载

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \ era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/ERRXXXX/ERRXXXXXX/ERRXXXXXX.fastq.gz ./

方法二:批量下载

# 创建包含 Run ID 的列表 run_list.txt 

for id in $(cat run_list.txt); do ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \ era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$id/$id.fastq.gz ./ done

注意:Aspera 速度快,但需安装 Aspera Connect 并配置密钥。ENA 网站也可用 FTP/HTTPS 下载。


(3)SRA 数据下载

SRA 数据也可通过 NCBI SRA Toolkit 下载,支持 FASTQ 格式:

# 安装 SRA Toolkit 并设置路径 

# 下载单个样本 (以 SRRXXXXX 为例) 

prefetch SRRXXXXX 

# 转换为 FASTQ 

fastq-dump --split-files SRRXXXXX

SRA Toolkit 支持批量下载,用 --option-file 指定一个包含多个 SRR 的文本文件。


示例

下载GSE247382数据
image.png
访问GEO官网,输入GSE247382
image.png
展示数据基本信息
image.png
表达矩阵和样本信息,原始fastq通过点击SRA RUn SELECTOR跳转到SRA网站
image.png
选择样本后,点击accession list 获得样本SRR编号,通过SRA Toolkit下载
image.png
或者到ENA数据库检索BioProject编号:PRJNA1037470
image.png
选择Aspera获取下载链接,(如:fasp.sra.ebi.ac.uk:/vol1/fastq/SRR267/038/SRR26767238/SRR26767238.fastq.gz)下载fastq文件,速度更快。image.png

小结


数据库
数据类型
优势
下载方式
GEO
表达矩阵 / 高通量分析
易分析、便于复现
GEOquery / SOFT 文件
ENA
原始测序数据
数据全面、原始
Aspera / FTP / wget
SRA
原始测序数据
与 ENA 高度互通,支持 NCBI 工具
SRA Toolkit / fastq-dump

使用 GEO 获取 表达矩阵,使用 ENA/SRA 获取 原始测序数据,可以快速搭建自己的分析流程。