细菌前噬菌体精准预测解决方案
摘要
前噬菌体(Prophage)是整合于细菌染色体的温和噬菌体静默态,在微生物进化、毒力调控和代谢扩张中发挥核心作用。精确识别前噬菌体边界——尤其是重组位点attL/attR的坐标——是体外噬菌体重启(Rebooting)、噬菌体疗法研发及益生菌安全性评估的前提条件。
本方案以ONT R10.4.1三代长读长测序完成图为输入,构建双引擎协同预测框架(geNomad + PIDE),结合CheckV完整性评估、PHASTEST功能注释和PhiSpy独立验证,实现att位点坐标偏差 ≤±100 bp的高精度前噬菌体预测,并已在4株乳杆菌属基因组(共13条前噬菌体)上完成系统验证(PhiSpy验证率100%,PHASTEST完整性评级均为Intact)。

1、背景介绍
1.1 前噬菌体的定义与研究意义
前噬菌体(Prophage)是温和噬菌体基因组经位点特异性重组整合至宿主染色体后的静默形式。在溶原周期(Lysogeny)中,噬菌体DNA随宿主基因组复制传代;当宿主受到DNA损伤、SOS应答或营养胁迫等诱导信号时,前噬菌体切除整合位点并启动裂解周期(Lytic Cycle),最终裂解宿主释放成熟噬菌体颗粒。前噬菌体的研究意义主要体现在以下方面:
(1) 水平基因转移(HGT):前噬菌体携带的辅助代谢基因(AMGs)和毒力基因通过溶原转变(Lysogenic Conversion)在细菌群落间传播,是细菌基因组多样性的重要来源。
(2) 毒力因子编码:霍乱毒素(CT)、志贺毒素(Stx)等关键毒力因子由前噬菌体编码,其诱导表达直接影响病原菌致病能力。
(3) 益生菌稳定性:在工业乳酸菌中,前噬菌体的自发诱导是生产批次失败的重要风险因素,需在菌株开发阶段系统评估。
(4) 噬菌体工程:精确定位前噬菌体边界(含att位点)后,可完整扩增噬菌体基因组,用于体外重启(Rebooting)具有感染活性的噬菌体颗粒。
1.2 整合机制与att位点
整合过程由噬菌体编码的整合酶(Integrase)介导:该酶识别噬菌体attP位点(Phage Attachment Site)与宿主attB位点(Bacterial Attachment Site)并催化链交换,生成flanking的attL和attR位点,噬菌体基因组嵌入宿主染色体。切除(Excision)则需整合酶与切除酶(Excisionase, Xis)协同,使前噬菌体恢复为环状分子进入裂解周期。

图1 噬菌体溶原周期与裂解周期转换机制及att位点重组示意图
att位点坐标精度对体外重建至关重要。attL/attR位点偏差超过数十个碱基对即可导致整合酶识别失败,使重启实验完全失效。基于Zhou et al. (2025) 的系统评估,现有主流预测工具的边界坐标误差分布范围宽泛(从数百至数千bp不等),因此建立高精度预测流程具有实际必要性。
1.3 三代测序对前噬菌体预测的技术支撑
短读长测序(如Illumina PE150)因att位点处的短重复序列常导致组装断裂(Contig断点),引发边界坐标系统性漂移。ONT PromethION R10.4.1平台配合SUP(Super Accuracy)碱基识别,可产生平均读长 >5 kb、Q20+碱基比例 >73% 的高质量数据,支持细菌基因组完成图(Finished Genome)的一次性获取,从根本上规避了短读长组装的断裂问题。以本方案验证菌株Lacticaseibacillus casei为例,原始测序深度约365×,组装结果为2条环状Contig(N50 = 2,940,950 bp,BUSCO ≥99%),为精确预测提供了高质量序列背景。
1.4 主要技术挑战
(1) att位点边界界定:attL/attR区域存在短重复序列,自动化工具普遍存在系统性边界过宽或过窄偏差;
(2) 降解前噬菌体识别:不同降解程度(Intact/Questionable/Incomplete)对应的基因组特征差异显著,工具间判定标准不统一;
(3) AT富集基因组的同源性局限:乳杆菌属GC含量34%–50%,基于序列同源的工具对低相似度新颖噬菌体存在漏检风险;
(4) 单工具精度不足:Zhou et al. (2025) 评估显示,现有工具Base Precision范围为0.35–0.91,需多工具协同验证。
2、预测工具概述与选型依据
2.1 主要工具性能对比
当前主流前噬菌体预测软件基于不同核心算法,在边界精度、完整性评估和运行效率方面各有侧重。Base Precision(碱基精度)定义为预测序列中属于真实噬菌体基因组碱基的比例(TP碱基 / [TP碱基 + FP碱基]),是衡量边界预测假阳性碱基比率的核心指标。
表1 主要前噬菌体预测工具特性对比(Base Precision数据来源:Zhou et al., 2025, Genome Biology)

2.2 工具选型依据
本方案基于Zhou et al. (2025) 对38株肠道细菌完成图的系统性基准测评(以诱导实验测序结果为金标准),工具选型遵循以下原则:
(1) 双主力预测:体外重启实验对att位点坐标精度要求严格(偏差 ≤±100 bp),选用Base Precision最高的PIDE(0.91)和综合指标最优的geNomad(MCC=95.3%)双引擎并行,二者在算法原理和适用场景上形成互补;
(2) VirSorter2排除:Zhou et al. (2025) 评估显示VirSorter2的Base Precision仅约0.35,边界假阳性率过高,不适用于要求精确att坐标的下游应用;
(3) CheckV独立质控:作为与预测工具完全独立的质量评估器,CheckV基于氨基酸组成和参考病毒基因组对候选序列进行定量完整性评分,有效过滤低质量片段;
(4) PHASTEST功能验证:利用其标准化完整性分级体系(Intact/Questionable/Incomplete)对候选前噬菌体进行交叉验证,并提供功能基因注释供人工审核;
(5) PhiSpy全局验证:作为独立的全基因组扫描工具,用于交叉验证所有候选区间,验证率须达100%。
3、集成分析流程
3.1 总体策略
本方案采用"双引擎并行预测 + 三层独立验证 + 坐标系统整合"的分析框架,以att位点坐标精度(偏差 ≤±100 bp)和PhiSpy全局验证率(100%)作为质量控制阈值。整体流程包含五个主要阶段:双引擎初始预测、CheckV完整性评估、PHASTEST功能注释、PhiSpy独立验证、双方案坐标整合与att位点精细化。
3.2 分析流程图

图2 前噬菌体精准预测集成分析流程图(双引擎预测 + 三层独立验证框架)
3.3 各阶段操作规范
3.3.1 输入数据质量要求
att位点精细化:在所有最终坐标的双端各外延±100 bp,确保attL和attR位点上下游调控序列完整包含,为引物设计提供充分的att序列背景。
表2 前噬菌体预测输入数据质量要求

4、技术优势
4.1 与标准注释方案的比较

图3 GeneRulor 精准预测流程与标准注释方案关键指标对比
表3 与标准注释方案关键指标对比

4.2 核心技术优势
表4 前噬菌体预测核心技术优势

5、应用场景

图4 前噬菌体精准预测的主要应用场景
(1) 合成生物学与噬菌体体外重启:基于精确的attL/attR坐标设计特异性扩增引物,完整获取前噬菌体基因组序列用于体外组装与功能重启,为噬菌体疗法(Phage Therapy)和裂菌素(Endolysin)研发提供功能性材料。
(2) 益生菌基因组稳定性与安全性评估:系统评估工业乳酸菌株(如Lacticaseibacillus casei、Lactobacillus gasseri 等)携带前噬菌体的完整性与诱导风险,为菌株选育和生产质量控制提供数据支撑。
(3) 临床病原组学:精确注释致病菌中编码毒力因子(stx、ctx等)和抗生素耐药基因(AMR)的前噬菌体,揭示毒力水平传播机制,支持流行病学溯源与临床防控策略制定。
(4) 微生物生态学与进化研究:定量评估微生物群落内水平基因转移(HGT)频率,构建噬菌体-宿主共进化网络,解析前噬菌体在微生物组动态中的调控作用。
(5)细菌完成图高级注释模块:作为ONT三代测序细菌完成图报告的标准增值分析模块,在常规基因组注释基础上提供高精度前噬菌体预测,提升报告科研深度与应用价值。
6、示例
6.1 验证数据集概述
本方案以4株乳杆菌属菌株(Lacticaseibacillus casei、Lactobacillus gasseri、L. gasseri2、L. murinus)的ONT R10.4.1测序完成图为验证数据集。
6.2 前噬菌体预测结果
4株菌共检出13条高质量前噬菌体候选,全部满足质控阈值:PhiSpy验证率100%,PHASTEST完整性评级均为Intact,CheckV完整性评分均 ≥Medium-quality(≥50%)。其中6条坐标由双方案一致确认,7条经PHASTEST评估后确定最终边界。
表5 4株乳杆菌前噬菌体预测结果汇总(示意,以实际分析报告为准)

6.3 PHASTEST前噬菌体功能结构

图5 前噬菌体功能结构图
6.4 质量控制指标达成情况
表6 前噬菌体预测质量控制指标达成情况

7、服务内容与样本要求
7.1 标准交付成果
(1) 高精度坐标表:所有前噬菌体的完整坐标清单(含attL/attR ±100 bp侧翼坐标)、各工具置信度评分及坐标来源说明;
(2) att位点序列文件:attL/attR精确坐标及侧翼FASTA序列,附引物设计建议;
(3) 完整性质控报告:CheckV定量评分 + PHASTEST标准化分级的综合质控报告;
(4) 功能基因组图谱:PHASTEST基因组结构可视化及功能基因注释汇总(整合酶/结构蛋白/溶菌酶等);
(5) 原始分析数据包:geNomad、PIDE、CheckV、PhiSpy各工具完整输出文件,确保结果可完整复现。
7.2 服务流程
表7 前噬菌体预测服务流程

7.3 送样要求
表8 前噬菌体预测送样要求

8、参考文献
[1] Camargo AP, Roux S, Schulz F, et al. Identification of mobile genetic elements with geNomad. Nat Biotechnol. 2023;41(10):1303–1312.
[2] Zhou C, Zhang Y, Liu Y, et al. Highly accurate prophage island detection with PIDE. Genome Biology. 2025;26:45.
[3] Nayfach S, Camargo AP, Schulz F, et al. CheckV assesses the quality and completeness of metagenome-assembled viral genomes. Nat Biotechnol. 2021;39:578–585.
[4] Arndt D, Marcu A, Liang Y, et al. PHASTEST: faster, more accurate and visually stimulating prophage identification. Nucleic Acids Res. 2023;51(W1):W549–W557.
[5] Akhter S, Aziz RK, Edwards RA. PhiSpy: a novel algorithm for finding prophages in bacterial genomes that combines similarity- and composition-based strategies. Nucleic Acids Res. 2012;40(16):e128.
[6] Sereika M, Kirkegaard RH, Karst SM, et al. Oxford Nanopore R10.4 long-read sequencing enables near-perfect bacterial genomes. Nat Methods. 2022;19:823–826.
[7] Kolmogorov M, Yuan J, Lin Y, et al. Assembly of long, error-prone reads using repeat graphs. Nat Biotechnol. 2019;37:540–546.