博士课堂

博士课堂

重磅综述：纳米孔测序技术，生信分析及应用

2025-11-11

重磅综述：纳米孔测序技术，生信分析及应用

GBhouse专用扉页.gif

——解读《Nature Biotechnology》重磅综述：Nanopore sequencing technology, bioinformatics and applications

一、技术发展（Technology development）

1. 纳米孔的设计（Nanopore design）

纳米孔测序的概念最早出现在上世纪80年代。它利用一种“蛋白质孔道”（nanopore）作为生物传感器，当单条DNA或RNA分子通过孔道时，会引起电流的微小变化，不同碱基会产生不同的电流信号。2014年，英国Oxford Nanopore Technologies（ONT）公司推出了第一台商业化设备——MinION，标志着纳米孔测序正式进入实用阶段。此后ONT不断改进纳米孔和驱动酶（motor protein），先后推出R6到R10.3等多个版本，使得测序速度更快、准确率更高。最新的R10系列甚至采用了“双识别区”设计，提高了对重复序列（如AAA…）的识别精度。

2. 提升准确率的策略（Additional strategies to improve accuracy）

为解决早期读错率较高的问题，科学家采用了多种策略：

双链重复测序（2D/1D²）：让同一DNA的两条链依次通过纳米孔，生成共识序列，提高准确率至94–95%。
改进算法：从早期的隐马尔可夫模型（HMM）到如今的深度神经网络（如DeepNano、Guppy），碱基识别算法大幅提升。
优化驱动酶与孔结构：如R9.4中使用的_E. coli_ 蛋白CsgG，使测序速度从70提高到450个碱基/秒。

3. 延长读长（Extending read length）

纳米孔测序的“杀手锏”是读长超长。它理论上能读取完整的染色体片段。2018年曾实现单条**2.27 Mb（227万碱基）**的纪录。为了获得长片段DNA，研究者开发了多种高分子DNA提取方法（如酚/氯仿提取、磁珠纯化、Plug提取等），并利用BluePippin等系统去除小片段。平均读长由早期的几千碱基提升至2万碱基以上。

4. RNA测序（Sequencing RNA）

除了DNA，纳米孔还能直接测RNA。这种“直接RNA测序”无需逆转录或扩增，能保留RNA分子的原始信息，包括修饰位点。它还能通过反向合成cDNA后形成RNA–DNA双链再测序，提高稳定性。目前直接RNA测序的准确率约为83–86%，略低于DNA，但具有独特的表观转录组学优势。

5. 提高通量（Increasing throughput）

ONT平台从手掌大小的MinION发展到可并行上百流动池的PromethION，测序通量从最初每个流动池几百兆碱基提升到153 Gb。目前不同设备的定位如下：

Flongle：一次性小芯片，适合小规模实验；
MinION/GridION：便携式或中型项目；
PromethION：适用于大规模人类基因组项目；
VolTRAX、MinIT：自动化样品处理与离线分析。

二、数据分析（Data analysis）

1. 碱基识别（Base calling）

这是把电流信号转化为字母序列的关键。算法经历了四代演进：

HMM模型（早期）；
神经网络识别；
直接从原始信号预测；
“flip-flop”模型 + 定制训练（如Taiyaki）。目前主流软件是Guppy，兼顾速度与精度，还能识别甲基化碱基。

2. 检测DNA/RNA修饰（Detecting DNA and RNA modifications）

纳米孔可以直接识别碱基修饰，如DNA的5mC、6mA、5hmC，以及RNA的m6A、m5C、Ψ等。常用软件包括Tombo、Nanopolish、DeepSignal等。DNA修饰的单碱基检测已可达单分子水平；RNA修饰检测也在迅速发展。

3. 错误校正（Error correction）

由于读错率仍高，校正算法至关重要。主要分为两类：

自校正（self-correction）：利用多个长读长的重叠信息（如Canu、LoRMA）；
混合校正（hybrid correction）：结合Illumina短读长数据（如Nanocorr、FMLRC）。后者能将错误率降至1–4%。

4. 长读长比对（Aligners for error-prone long reads）

长读长错误率高，对比对工具要求更高。代表性工具包括：

minimap2：速度快、精度高，支持RNA拼接；
GraphMap、LAST、NGMLR：处理高错误率；
Graphmap2、deSALT：专为RNA测序设计。

5. 混合测序（Hybrid sequencing）

结合长读长的结构信息与短读长的高准确率，既能识别大结构变异，又能精确定位剪接位点。广泛用于基因组、转录组和宏基因组组装。

6. 从头组装（De novo genome assembly）

主流组装算法（Canu、Flye、Miniasm等）采用“overlap–layout–consensus”策略，可重建完整基因组。通过后期的“polishing”（如Nanopolish、Medaka），可显著提升准确率。

7. 结构变异与重复区域（SVs and repetitive regions）

纳米孔能轻松跨越重复区，检测大型结构变异。工具如Sniffles、NanoSV、NanoVar等可识别倒位、缺失、重复、插入等。还能研究转座元件（TLDR）与串联重复（TRiCoLOR）。

8. 转录组复杂性（Transcriptome complexity）

纳米孔测序能直接获得全长转录本，准确识别可变剪接、融合基因与环状RNA。常用分析工具有FLAIR、StringTie2、TALON、IDP等。其直接RNA测序使研究“真实的转录组图谱”成为可能。

三、纳米孔测序的应用（Applications）

1. 填补参考基因组缺口（Closing gaps）

纳米孔长读长使得人类X染色体首次实现端到端无缺口组装。“T2T-CHM13”全基因组组装工作正是得益于此。

2. 构建新参考基因组（Building new reference genomes）

已被用于多种非模式生物的基因组构建，如：

大型蜥蜴（科莫多龙）、孔雀、狮子、海洋贝类、植物（如香蕉、红杉）；甚至只需几块PromethION芯片即可完成人类全基因组组装。

3. 检测大规模结构变异（Identifying large SVs）

在癌症与人群基因组中，能精准识别百万碱基级别的重排。如在急性髓系白血病、乳腺癌中发现复杂易位事件。

4. 解析全长转录本与复杂转录事件（Full-length transcriptomes）

能够直接检测基因的不同剪接形式、转录起始点及poly(A)尾长度。例如在模式生物中揭示了poly(A)尾长度与基因表达量呈负相关的规律。

5. 表观遗传研究（Characterizing epigenetic marks）

纳米孔可直接检测DNA甲基化，甚至同时解析核小体占位、染色质可及性与三维结构（如Pore-C、SMAC-seq、DiMeLo-seq）。单分子层面的表观图谱已成为可能。

6. RNA修饰检测（Detecting RNA modifications）

能识别m6A、m5C、Ψ等RNA修饰，并与化学修饰方法结合解析RNA二级结构。未来有望揭示RNA动态代谢的真实图景。

7. 癌症研究（Cancer）

纳米孔可在一天内完成从取样到分子诊断：同时检测基因突变、融合、拷贝数变化与甲基化状态。在白血病、乳腺癌、脑瘤等研究中展现巨大潜力。

8. 感染性疾病（Infectious disease）

MinION被用于快速识别病原体：从采样到结果仅需数小时，在脑膜炎、肺炎、心内膜炎等感染中展现出快速诊断优势。

9. 遗传病检测（Genetic disease）

在阿尔茨海默病、血友病、自闭症等遗传性疾病中，纳米孔测序揭示了新的重复扩增与结构重排变异。

10. 疫情监测（Outbreak surveillance）

从2015年西非埃博拉疫情开始，纳米孔设备被部署于现场，实现实时病毒基因追踪。后来在寨卡、新冠疫情中广泛应用，成为流行病学追踪的重要工具。

11. 现场快速检测（Other on-site applications）

纳米孔设备被用于：

非洲农场的植物病毒检测；
河流污染源追踪；
法医DNA快速鉴定（3分钟内识别人类样本）。真正实现了“把基因实验室装进口袋”。

四、展望

纳米孔测序正迈向“便携、实时、智能”的新阶段。未来趋势包括：

开发更稳定、低噪音的孔蛋白与电化学平台；
引入AI算法实现更高精度碱基识别与修饰检测；
在临床、法医、生态、教育等场景中实现普及化应用。

纳米孔测序让我们第一次能“听见”DNA和RNA的电流之声，它正在重塑生命科学、医学与法医学的未来*+-

上一篇：公共数据库文章将被严格限制出版，甚至直接拒稿下一篇：人类胎盘高通量mRNA测序图谱揭示孕早期至孕晚期转录组重塑的巨大变化