博士课堂

博士课堂

重磅综述:纳米孔测序技术,生信分析及应用

2025-11-11

重磅综述:纳米孔测序技术,生信分析及应用

GBhouse专用扉页.gif


——解读《Nature Biotechnology》重磅综述:Nanopore sequencing technology, bioinformatics and applications

image.png

一、技术发展(Technology development)

1. 纳米孔的设计(Nanopore design)

纳米孔测序的概念最早出现在上世纪80年代。它利用一种“蛋白质孔道”(nanopore)作为生物传感器,当单条DNA或RNA分子通过孔道时,会引起电流的微小变化,不同碱基会产生不同的电流信号。2014年,英国Oxford Nanopore Technologies(ONT)公司推出了第一台商业化设备——MinION,标志着纳米孔测序正式进入实用阶段。此后ONT不断改进纳米孔和驱动酶(motor protein),先后推出R6到R10.3等多个版本,使得测序速度更快、准确率更高。最新的R10系列甚至采用了“双识别区”设计,提高了对重复序列(如AAA…)的识别精度。

image.png

2. 提升准确率的策略(Additional strategies to improve accuracy)

为解决早期读错率较高的问题,科学家采用了多种策略:

  • 双链重复测序(2D/1D²):让同一DNA的两条链依次通过纳米孔,生成共识序列,提高准确率至94–95%。

  • 改进算法:从早期的隐马尔可夫模型(HMM)到如今的深度神经网络(如DeepNano、Guppy),碱基识别算法大幅提升。

  • 优化驱动酶与孔结构:如R9.4中使用的_E. coli_ 蛋白CsgG,使测序速度从70提高到450个碱基/秒。

    image.png

3. 延长读长(Extending read length)

纳米孔测序的“杀手锏”是读长超长。它理论上能读取完整的染色体片段。2018年曾实现单条**2.27 Mb(227万碱基)**的纪录。为了获得长片段DNA,研究者开发了多种高分子DNA提取方法(如酚/氯仿提取、磁珠纯化、Plug提取等),并利用BluePippin等系统去除小片段。平均读长由早期的几千碱基提升至2万碱基以上。


4. RNA测序(Sequencing RNA)

除了DNA,纳米孔还能直接测RNA。这种“直接RNA测序”无需逆转录或扩增,能保留RNA分子的原始信息,包括修饰位点。它还能通过反向合成cDNA后形成RNA–DNA双链再测序,提高稳定性。目前直接RNA测序的准确率约为83–86%,略低于DNA,但具有独特的表观转录组学优势。


5. 提高通量(Increasing throughput)

ONT平台从手掌大小的MinION发展到可并行上百流动池的PromethION,测序通量从最初每个流动池几百兆碱基提升到153 Gb。目前不同设备的定位如下:

  • Flongle:一次性小芯片,适合小规模实验;

  • MinION/GridION:便携式或中型项目;

  • PromethION:适用于大规模人类基因组项目;

  • VolTRAX、MinIT:自动化样品处理与离线分析。

    image.png

二、数据分析(Data analysis)

1. 碱基识别(Base calling)

这是把电流信号转化为字母序列的关键。算法经历了四代演进:

  1. HMM模型(早期);

  2. 神经网络识别;

  3. 直接从原始信号预测;

  4. “flip-flop”模型 + 定制训练(如Taiyaki)。目前主流软件是Guppy,兼顾速度与精度,还能识别甲基化碱基。

image.png

2. 检测DNA/RNA修饰(Detecting DNA and RNA modifications)

纳米孔可以直接识别碱基修饰,如DNA的5mC、6mA、5hmC,以及RNA的m6A、m5C、Ψ等。常用软件包括Tombo、Nanopolish、DeepSignal等。DNA修饰的单碱基检测已可达单分子水平;RNA修饰检测也在迅速发展。


3. 错误校正(Error correction)

由于读错率仍高,校正算法至关重要。主要分为两类:

  • 自校正(self-correction):利用多个长读长的重叠信息(如Canu、LoRMA);

  • 混合校正(hybrid correction):结合Illumina短读长数据(如Nanocorr、FMLRC)。后者能将错误率降至1–4%。


4. 长读长比对(Aligners for error-prone long reads)

长读长错误率高,对比对工具要求更高。代表性工具包括:

  • minimap2:速度快、精度高,支持RNA拼接;

  • GraphMap、LAST、NGMLR:处理高错误率;

  • Graphmap2、deSALT:专为RNA测序设计。


5. 混合测序(Hybrid sequencing)

结合长读长的结构信息与短读长的高准确率,既能识别大结构变异,又能精确定位剪接位点。广泛用于基因组、转录组和宏基因组组装。


6. 从头组装(De novo genome assembly)

主流组装算法(Canu、Flye、Miniasm等)采用“overlap–layout–consensus”策略,可重建完整基因组。通过后期的“polishing”(如Nanopolish、Medaka),可显著提升准确率。


7. 结构变异与重复区域(SVs and repetitive regions)

纳米孔能轻松跨越重复区,检测大型结构变异。工具如Sniffles、NanoSV、NanoVar等可识别倒位、缺失、重复、插入等。还能研究转座元件(TLDR)与串联重复(TRiCoLOR)。


8. 转录组复杂性(Transcriptome complexity)

纳米孔测序能直接获得全长转录本,准确识别可变剪接、融合基因与环状RNA。常用分析工具有FLAIR、StringTie2、TALON、IDP等。其直接RNA测序使研究“真实的转录组图谱”成为可能。


三、纳米孔测序的应用(Applications)

1. 填补参考基因组缺口(Closing gaps)

纳米孔长读长使得人类X染色体首次实现端到端无缺口组装。“T2T-CHM13”全基因组组装工作正是得益于此。

image.png

2. 构建新参考基因组(Building new reference genomes)

已被用于多种非模式生物的基因组构建,如:

  • 大型蜥蜴(科莫多龙)、孔雀、狮子、海洋贝类、植物(如香蕉、红杉);甚至只需几块PromethION芯片即可完成人类全基因组组装。


3. 检测大规模结构变异(Identifying large SVs)

在癌症与人群基因组中,能精准识别百万碱基级别的重排。如在急性髓系白血病、乳腺癌中发现复杂易位事件。


4. 解析全长转录本与复杂转录事件(Full-length transcriptomes)

能够直接检测基因的不同剪接形式、转录起始点及poly(A)尾长度。例如在模式生物中揭示了poly(A)尾长度与基因表达量呈负相关的规律。


5. 表观遗传研究(Characterizing epigenetic marks)

纳米孔可直接检测DNA甲基化,甚至同时解析核小体占位、染色质可及性与三维结构(如Pore-C、SMAC-seq、DiMeLo-seq)。单分子层面的表观图谱已成为可能。


6. RNA修饰检测(Detecting RNA modifications)

能识别m6A、m5C、Ψ等RNA修饰,并与化学修饰方法结合解析RNA二级结构。未来有望揭示RNA动态代谢的真实图景。


7. 癌症研究(Cancer)

纳米孔可在一天内完成从取样到分子诊断:同时检测基因突变、融合、拷贝数变化与甲基化状态。在白血病、乳腺癌、脑瘤等研究中展现巨大潜力。


8. 感染性疾病(Infectious disease)

MinION被用于快速识别病原体:从采样到结果仅需数小时,在脑膜炎、肺炎、心内膜炎等感染中展现出快速诊断优势。


9. 遗传病检测(Genetic disease)

在阿尔茨海默病、血友病、自闭症等遗传性疾病中,纳米孔测序揭示了新的重复扩增与结构重排变异。


10. 疫情监测(Outbreak surveillance)

从2015年西非埃博拉疫情开始,纳米孔设备被部署于现场,实现实时病毒基因追踪。后来在寨卡、新冠疫情中广泛应用,成为流行病学追踪的重要工具。


11. 现场快速检测(Other on-site applications)

纳米孔设备被用于:

  • 非洲农场的植物病毒检测;

  • 河流污染源追踪;

  • 法医DNA快速鉴定(3分钟内识别人类样本)。真正实现了“把基因实验室装进口袋”。


四、展望

纳米孔测序正迈向“便携、实时、智能”的新阶段。未来趋势包括:

  • 开发更稳定、低噪音的孔蛋白与电化学平台

  • 引入AI算法实现更高精度碱基识别与修饰检测;

  • 在临床、法医、生态、教育等场景中实现普及化应用。


纳米孔测序让我们第一次能“听见”DNA和RNA的电流之声,它正在重塑生命科学、医学与法医学的未来*+-