生信技能

生信技能

RNA测序分析（二）：参考基因组到底选哪个？

GBhouse专用扉页.gif

在上一篇推文中，我们讲了如何用 fastp 对原始的 RNA-seq 数据进行质控和过滤。质控结束后，下一步就是比对（alignment）。
而比对的基础，就是——参考基因组（reference genome）。

很多同学在刚接触转录组分析时常常会问：

🧩 “我应该选 hg19 还是 hg38？”
🧩 “为什么 UCSC、Ensembl、NCBI 的基因组名字都不一样？”
🧩 “参考基因组是不是越新越好？”

今天我们就来系统地聊聊这个问题。

在 RNA-seq 分析中，参考基因组是所有 reads 比对的模板。
简单说，它是一条“标准的人类DNA序列”，代表人类基因组的一个版本。

但需要注意的是：

它不是任何一个人的基因组，而是由多个样本拼接、整合而成的“代表性序列”。

随着测序技术的进步，参考基因组也不断更新完善，从最初的 GRCh37（也叫 hg19）到 GRCh38（hg38），再到最新的 T2T-CHM13，分辨率越来越高，缺失区域越来越少。

名称	主要来源	发布年份	特点
GRCh37/hg19	Genome Reference Consortium	2009	经典版本，兼容性强，但存在缺口和拼接错误
GRCh38/hg38	Genome Reference Consortium	2013	增加了更多序列，改进了着丝粒和端粒区域
T2T-CHM13v2.0	Telomere-to-Telomere Consortium	2022	第一个完整的人类基因组，无缺口，覆盖所有染色体
pangenome (HPRC)	Human Pangenome Reference Consortium	2023–	不再是一条线性序列，而是图结构，代表人类多样性

💡 关键点：同一版本的DNA序列（如GRCh38），在不同数据库中几乎相同；但它们的“注释文件”（GTF/GFF）不同！

UCSC 的注释模型中，同一个基因ID可能出现在不同染色体或链上，因此不建议用作正式分析依据。

Ensembl 每个版本（如 release-113）都包含对应的注释文件（GTF）与序列文件（FASTA）。
这种“版本号绑定”机制让结果更可追踪。

RefSeq 则以 patch版本号（如 GRCh38.p14） 进行维护，更新更保守，但在医学研究中广泛使用。

# 下载基因组序列

wget https://ftp.ensembl.org/pub/release-115/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

# 下载注释文件

wget https://ftp.ensembl.org/pub/release-115/gtf/homo_sapiens/Homo_sapiens.GRCh38.115.gtf.gz

# 解压

gunzip *.gz

# 在 NCBI Assembly 页面搜索 GRCh38.p14

https://www.ncbi.nlm.nih.gov/assembly/