重磅综述:纳米孔测序技术,生信分析及应用

——解读《Nature Biotechnology》重磅综述:Nanopore sequencing technology, bioinformatics and applications
一、技术发展(Technology development)
1. 纳米孔的设计(Nanopore design)
纳米孔测序的概念最早出现在上世纪80年代。它利用一种“蛋白质孔道”(nanopore)作为生物传感器,当单条DNA或RNA分子通过孔道时,会引起电流的微小变化,不同碱基会产生不同的电流信号。2014年,英国Oxford Nanopore Technologies(ONT)公司推出了第一台商业化设备——MinION,标志着纳米孔测序正式进入实用阶段。此后ONT不断改进纳米孔和驱动酶(motor protein),先后推出R6到R10.3等多个版本,使得测序速度更快、准确率更高。最新的R10系列甚至采用了“双识别区”设计,提高了对重复序列(如AAA…)的识别精度。
2. 提升准确率的策略(Additional strategies to improve accuracy)
为解决早期读错率较高的问题,科学家采用了多种策略:
双链重复测序(2D/1D²):让同一DNA的两条链依次通过纳米孔,生成共识序列,提高准确率至94–95%。
改进算法:从早期的隐马尔可夫模型(HMM)到如今的深度神经网络(如DeepNano、Guppy),碱基识别算法大幅提升。
优化驱动酶与孔结构:如R9.4中使用的_E. coli_ 蛋白CsgG,使测序速度从70提高到450个碱基/秒。
3. 延长读长(Extending read length)
纳米孔测序的“杀手锏”是读长超长。它理论上能读取完整的染色体片段。2018年曾实现单条**2.27 Mb(227万碱基)**的纪录。为了获得长片段DNA,研究者开发了多种高分子DNA提取方法(如酚/氯仿提取、磁珠纯化、Plug提取等),并利用BluePippin等系统去除小片段。平均读长由早期的几千碱基提升至2万碱基以上。
4. RNA测序(Sequencing RNA)
除了DNA,纳米孔还能直接测RNA。这种“直接RNA测序”无需逆转录或扩增,能保留RNA分子的原始信息,包括修饰位点。它还能通过反向合成cDNA后形成RNA–DNA双链再测序,提高稳定性。目前直接RNA测序的准确率约为83–86%,略低于DNA,但具有独特的表观转录组学优势。
5. 提高通量(Increasing throughput)
ONT平台从手掌大小的MinION发展到可并行上百流动池的PromethION,测序通量从最初每个流动池几百兆碱基提升到153 Gb。目前不同设备的定位如下:
PromethION:适用于大规模人类基因组项目;
VolTRAX、MinIT:自动化样品处理与离线分析。
二、数据分析(Data analysis)
1. 碱基识别(Base calling)
这是把电流信号转化为字母序列的关键。算法经历了四代演进:
“flip-flop”模型 + 定制训练(如Taiyaki)。目前主流软件是Guppy,兼顾速度与精度,还能识别甲基化碱基。
2. 检测DNA/RNA修饰(Detecting DNA and RNA modifications)
纳米孔可以直接识别碱基修饰,如DNA的5mC、6mA、5hmC,以及RNA的m6A、m5C、Ψ等。常用软件包括Tombo、Nanopolish、DeepSignal等。DNA修饰的单碱基检测已可达单分子水平;RNA修饰检测也在迅速发展。
3. 错误校正(Error correction)
由于读错率仍高,校正算法至关重要。主要分为两类:
自校正(self-correction):利用多个长读长的重叠信息(如Canu、LoRMA);
混合校正(hybrid correction):结合Illumina短读长数据(如Nanocorr、FMLRC)。后者能将错误率降至1–4%。
4. 长读长比对(Aligners for error-prone long reads)
长读长错误率高,对比对工具要求更高。代表性工具包括:
minimap2:速度快、精度高,支持RNA拼接;
GraphMap、LAST、NGMLR:处理高错误率;
Graphmap2、deSALT:专为RNA测序设计。
5. 混合测序(Hybrid sequencing)
结合长读长的结构信息与短读长的高准确率,既能识别大结构变异,又能精确定位剪接位点。广泛用于基因组、转录组和宏基因组组装。
6. 从头组装(De novo genome assembly)
主流组装算法(Canu、Flye、Miniasm等)采用“overlap–layout–consensus”策略,可重建完整基因组。通过后期的“polishing”(如Nanopolish、Medaka),可显著提升准确率。
7. 结构变异与重复区域(SVs and repetitive regions)
纳米孔能轻松跨越重复区,检测大型结构变异。工具如Sniffles、NanoSV、NanoVar等可识别倒位、缺失、重复、插入等。还能研究转座元件(TLDR)与串联重复(TRiCoLOR)。
8. 转录组复杂性(Transcriptome complexity)
纳米孔测序能直接获得全长转录本,准确识别可变剪接、融合基因与环状RNA。常用分析工具有FLAIR、StringTie2、TALON、IDP等。其直接RNA测序使研究“真实的转录组图谱”成为可能。
三、纳米孔测序的应用(Applications)
1. 填补参考基因组缺口(Closing gaps)
纳米孔长读长使得人类X染色体首次实现端到端无缺口组装。“T2T-CHM13”全基因组组装工作正是得益于此。
2. 构建新参考基因组(Building new reference genomes)
已被用于多种非模式生物的基因组构建,如:
大型蜥蜴(科莫多龙)、孔雀、狮子、海洋贝类、植物(如香蕉、红杉);甚至只需几块PromethION芯片即可完成人类全基因组组装。
3. 检测大规模结构变异(Identifying large SVs)
在癌症与人群基因组中,能精准识别百万碱基级别的重排。如在急性髓系白血病、乳腺癌中发现复杂易位事件。
4. 解析全长转录本与复杂转录事件(Full-length transcriptomes)
能够直接检测基因的不同剪接形式、转录起始点及poly(A)尾长度。例如在模式生物中揭示了poly(A)尾长度与基因表达量呈负相关的规律。
5. 表观遗传研究(Characterizing epigenetic marks)
纳米孔可直接检测DNA甲基化,甚至同时解析核小体占位、染色质可及性与三维结构(如Pore-C、SMAC-seq、DiMeLo-seq)。单分子层面的表观图谱已成为可能。
6. RNA修饰检测(Detecting RNA modifications)
能识别m6A、m5C、Ψ等RNA修饰,并与化学修饰方法结合解析RNA二级结构。未来有望揭示RNA动态代谢的真实图景。
7. 癌症研究(Cancer)
纳米孔可在一天内完成从取样到分子诊断:同时检测基因突变、融合、拷贝数变化与甲基化状态。在白血病、乳腺癌、脑瘤等研究中展现巨大潜力。
8. 感染性疾病(Infectious disease)
MinION被用于快速识别病原体:从采样到结果仅需数小时,在脑膜炎、肺炎、心内膜炎等感染中展现出快速诊断优势。
9. 遗传病检测(Genetic disease)
在阿尔茨海默病、血友病、自闭症等遗传性疾病中,纳米孔测序揭示了新的重复扩增与结构重排变异。
10. 疫情监测(Outbreak surveillance)
从2015年西非埃博拉疫情开始,纳米孔设备被部署于现场,实现实时病毒基因追踪。后来在寨卡、新冠疫情中广泛应用,成为流行病学追踪的重要工具。
11. 现场快速检测(Other on-site applications)
纳米孔设备被用于:
法医DNA快速鉴定(3分钟内识别人类样本)。真正实现了“把基因实验室装进口袋”。
四、展望
纳米孔测序正迈向“便携、实时、智能”的新阶段。未来趋势包括:
纳米孔测序让我们第一次能“听见”DNA和RNA的电流之声,它正在重塑生命科学、医学与法医学的未来*+-