生信技能

生信技能

RNA测序分析(二):参考基因组到底选哪个?

2025-11-07

RNA测序分析(二):参考基因组到底选哪个?

GBhouse专用扉页.gif

在上一篇推文中,我们讲了如何用 fastp 对原始的 RNA-seq 数据进行质控和过滤。质控结束后,下一步就是比对(alignment)
而比对的基础,就是——参考基因组(reference genome)

很多同学在刚接触转录组分析时常常会问:

🧩 “我应该选 hg19 还是 hg38?”
🧩 “为什么 UCSC、Ensembl、NCBI 的基因组名字都不一样?”
🧩 “参考基因组是不是越新越好?”

今天我们就来系统地聊聊这个问题。

一、什么是参考基因组?

在 RNA-seq 分析中,参考基因组是所有 reads 比对的模板
简单说,它是一条“标准的人类DNA序列”,代表人类基因组的一个版本。

但需要注意的是:

它不是任何一个人的基因组,而是由多个样本拼接、整合而成的“代表性序列”。

随着测序技术的进步,参考基因组也不断更新完善,从最初的 GRCh37(也叫 hg19)到 GRCh38(hg38),再到最新的 T2T-CHM13,分辨率越来越高,缺失区域越来越少。

二、目前常用的人类参考基因组版本



名称
主要来源
发布年份
特点
GRCh37/hg19
Genome Reference Consortium
2009
经典版本,兼容性强,但存在缺口和拼接错误
GRCh38/hg38
Genome Reference Consortium
2013
增加了更多序列,改进了着丝粒和端粒区域
T2T-CHM13v2.0
Telomere-to-Telomere Consortium
2022
第一个完整的人类基因组,无缺口,覆盖所有染色体
pangenome (HPRC)
Human Pangenome Reference Consortium
2023–
不再是一条线性序列,而是图结构,代表人类多样性

二、三大基因组数据库的区别:DNA序列 vs 注释

💡 关键点:同一版本的DNA序列(如GRCh38),在不同数据库中几乎相同;但它们的“注释文件”(GTF/GFF)不同!



平台
常用代号
注释特点
更新频率
适用场景
Ensembl
GRCh38
注释丰富,ID体系规范,更新频繁
每季度发布
探索性研究、转录调控分析
RefSeq (NCBI)
GRCh38.p14
保守、权威、稳定,兼容RefGene
更新较慢
临床研究、稳健型分析
UCSC
hg38
注释混杂,整合多来源
不规则
可视化浏览、快速查询

四、如何选择合适的基因注释?



研究目标
推荐注释
理由
稳健表达量估计、结果可重复
RefSeq / RefGene
模型简单,权威可靠,适合与芯片结果对比
探索新转录本或新机制
Ensembl
注释全面、更新快
快速浏览、示意展示
UCSC
可视化功能强,但不建议用于正式分析

UCSC 的注释模型中,同一个基因ID可能出现在不同染色体或链上,因此不建议用作正式分析依据。


五、Ensembl vs RefSeq 的更新节奏与版本管理

Ensembl 每个版本(如 release-113)都包含对应的注释文件(GTF)与序列文件(FASTA)。
这种“版本号绑定”机制让结果更可追踪。

RefSeq 则以 patch版本号(如 GRCh38.p14) 进行维护,更新更保守,但在医学研究中广泛使用。

六、推荐下载方式

下载 Ensembl GRCh38 基因组与注释

# 下载基因组序列

wget https://ftp.ensembl.org/pub/release-115/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

# 下载注释文件

wget https://ftp.ensembl.org/pub/release-115/gtf/homo_sapiens/Homo_sapiens.GRCh38.115.gtf.gz

# 解压

gunzip *.gz

下载 RefSeq 基因组(NCBI)

# 在 NCBI Assembly 页面搜索 GRCh38.p14

https://www.ncbi.nlm.nih.gov/assembly/


七、总结一下 ✍️

  1. DNA序列相同,注释不同。

  2. RefSeq 更稳,Ensembl 更全,UCSC 更乱。

  3. 根据研究目的选择注释模型:稳健 vs 探索。

  4. 务必保持参考基因组与注释文件版本一致。