在上一篇推文中,我们讲了如何用 fastp 对原始的 RNA-seq 数据进行质控和过滤。质控结束后,下一步就是比对(alignment)。
而比对的基础,就是——参考基因组(reference genome)。
很多同学在刚接触转录组分析时常常会问:
🧩 “我应该选 hg19 还是 hg38?”
🧩 “为什么 UCSC、Ensembl、NCBI 的基因组名字都不一样?”
🧩 “参考基因组是不是越新越好?”
今天我们就来系统地聊聊这个问题。
一、什么是参考基因组?
在 RNA-seq 分析中,参考基因组是所有 reads 比对的模板。
简单说,它是一条“标准的人类DNA序列”,代表人类基因组的一个版本。
但需要注意的是:
它不是任何一个人的基因组,而是由多个样本拼接、整合而成的“代表性序列”。
随着测序技术的进步,参考基因组也不断更新完善,从最初的 GRCh37(也叫 hg19)到 GRCh38(hg38),再到最新的 T2T-CHM13,分辨率越来越高,缺失区域越来越少。
二、目前常用的人类参考基因组版本
| | | |
|---|
| GRCh37/hg19 | Genome Reference Consortium | | |
| GRCh38/hg38 | Genome Reference Consortium | | |
| T2T-CHM13v2.0 | Telomere-to-Telomere Consortium | | |
| pangenome (HPRC) | Human Pangenome Reference Consortium | | |
二、三大基因组数据库的区别:DNA序列 vs 注释
💡 关键点:同一版本的DNA序列(如GRCh38),在不同数据库中几乎相同;但它们的“注释文件”(GTF/GFF)不同!
四、如何选择合适的基因注释?
| | |
|---|
| 稳健表达量估计、结果可重复 | | |
| 探索新转录本或新机制 | | |
| 快速浏览、示意展示 | | |
UCSC 的注释模型中,同一个基因ID可能出现在不同染色体或链上,因此不建议用作正式分析依据。
五、Ensembl vs RefSeq 的更新节奏与版本管理
Ensembl 每个版本(如 release-113)都包含对应的注释文件(GTF)与序列文件(FASTA)。
这种“版本号绑定”机制让结果更可追踪。
RefSeq 则以 patch版本号(如 GRCh38.p14) 进行维护,更新更保守,但在医学研究中广泛使用。
六、推荐下载方式
下载 Ensembl GRCh38 基因组与注释
# 下载基因组序列
wget https://ftp.ensembl.org/pub/release-115/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 下载注释文件
wget https://ftp.ensembl.org/pub/release-115/gtf/homo_sapiens/Homo_sapiens.GRCh38.115.gtf.gz
# 解压
gunzip *.gz
下载 RefSeq 基因组(NCBI)
# 在 NCBI Assembly 页面搜索 GRCh38.p14
https://www.ncbi.nlm.nih.gov/assembly/
七、总结一下 ✍️
RefSeq 更稳,Ensembl 更全,UCSC 更乱。