sgRNA设计
1. 背景介绍
CRISPR/Cas9基因编辑技术自2012年问世以来,已成为生命科学研究和基因治疗领域最具革命性的工具之一。该技术通过单向导RNA(sgRNA)引导Cas9核酸酶精确识别并切割目标DNA序列,实现基因组的定点修饰。然而,sgRNA的设计质量直接决定了基因编辑的成败——不当的sgRNA设计可能导致脱靶效应(off-target)、编辑效率低下,甚至引发非预期的基因组变异,在临床应用中可能带来严重的安全风险。
CRISPOR[1]软件系统性地集成了多种评分模型,能够同时评估sgRNA的切割效率(Doench '16/RuleSet3-Score)、靶向特异性(MIT/CFD-Score)、移码突变概率(Out-of-Frame-Score)以及全基因组脱靶风险,为研究者提供透明、可量化的多维度数据框架,极大提高了CRISPR实验的成功率。
2. 技术原理与核心创新
2.1 CRISPOR设计原理
CRISPOR基于CRISPR/Cas系统的分子机制进行sgRNA设计。对于经典的SpCas9系统,sgRNA需满足以下基本要求:(1)靶序列长度为20个核苷酸;(2)紧邻PAM序列(NGG,Cas9识别必需的原间隔序列邻近基序);(3)避免高GC含量(>80%)或低GC含量(<20%);(4)避免连续4个T(TTTT,可能导致U6启动子转录终止)。CRISPOR在用户输入目标序列后,自动扫描所有符合条件的潜在靶点,并通过多种算法进行评分排序。
平台采用分层筛选策略:首先根据PAM序列识别候选sgRNA;随后利用全基因组比对技术检测脱靶位点(允许最多4个错配);最后整合机器学习算法预测编辑效率。这种系统性方法确保推荐的sgRNA既具有高特异性(最小化脱靶风险),又具有高活性(最大化编辑效率)。CRISPOR整合了MIT特异性评分、CFD评分、Doench效率评分、移码突变评分等多维度评价指标,为后续的智能筛选提供了坚实的数据基础。
2.2 核心技术创新:智能筛选系统
在CRISPOR提供的丰富评分数据基础上,我们自主开发了专业的智能筛选系统,该系统是我们服务的核心技术优势。针对基因敲除实验的特定需求,我们建立了科学严谨的双阶段筛选流程:硬性过滤+四级智能排序,确保最终交付的sgRNA序列在功能性、特异性、效率和安全性方面达到最优平衡。
2.2.1 第一阶段:硬性质量控制过滤
基于大量文献验证,我们设定了三项关键质量阈值,对CRISPOR输出的所有候选sgRNA进行初步筛选,剔除不符合基本质量标准的序列:
(1)GC含量控制(40%-60%):GC含量直接影响sgRNA的稳定性和Cas9结合效率。过低的GC含量(<40%)会导致RNA二级结构不稳定,降低Cas9-sgRNA复合物的形成效率;过高的GC含量(>60%)则可能引起非特异性结合和脱靶效应。我们严格限定GC含量在40%-60%的最优区间,这一标准基于Doench等人在《Nature Biotechnology》发表的大规模筛选数据,该区间内的sgRNA表现出显著更高的编辑成功率(中位效率提升约30%)。
(2)MIT特异性评分(>50):MIT评分基于错配位置和数量计算脱靶概率,评分范围0-100,分值越高代表特异性越好。我们设定50分作为最低阈值,低于此分值的sgRNA存在显著脱靶风险。根据MIT评分体系的验证研究,评分<50的sgRNA在全基因组范围内存在多个高频切割的脱靶位点(CFD评分>0.2),可能导致实验结果的混淆和非预期的表型变化。
(3)Graf等人状态注释(GrafEtAlStatus = OK):CRISPOR整合了Graf等人开发的sgRNA质量评估系统,该系统基于实验验证数据对sgRNA进行分类标注。只有标注为'OK'的序列才被认为适合用于基因敲除实验。被标注为'AVOID'或'WARNING'的序列通常存在以下问题:位于重复序列区域、含有多核苷酸重复(如AAAA/TTTT/GGGG/CCCC)、邻近已知的SNP热点、或预测的二级结构过于复杂。这一过滤标准有效排除了约15%-20%的潜在问题序列。
2.2.2 第二阶段:四级智能优先排序
通过硬性过滤的候选序列将进入一个四级优先排序流程。该流程依据基因敲除实验的核心目标,对不同性能指标赋予不同的权重,进行逐级排序,直至筛选出Top 4的最优序列。
(1)优先级1:移码得分 (Out-of-Frame-Score) ↓,核心目标:功能性敲除。 此评分预测由NHEJ修复机制产生移码突变的概率,是实现基因功能丧失的直接指标。我们将其作为最高优先级,以最大化获得功能性敲除等位基因的可能性。
(2)优先级2:CFD特异性得分 (cfdSpecScore) ↓,核心目标:高保真度。 在确保高敲除潜力的基础上,我们采用更精准的CFD (Cutting Frequency Determination)算法评估脱靶风险,优先选择特异性最高的序列,以保证实验结果的纯净性。
(3)优先级3:Doench RuleSet3效率得分 (Doench-RuleSet3-Score) ↓,核心目标:高效率。 此评分采用Doench团队[2]开发的更新版算法,高分值代表更高的切割活性。在特异性相当的候选序列中,优先选择高效率序列,以减少实验对细胞的毒性并提升阳性检出率。
(4)优先级4:脱靶数量 (offtargetCount) ↓,核心目标:最终风险控制。 作为排序的最终环节,我们直接比较0-4个错配的脱靶位点总数。在所有上游指标均相近时,选择脱靶位点最少的序列,作为最终的安全保障。

图1 sgRNA设计流程图
2.3 批量设计CRISPR敲除文库
除单基因sgRNA设计外,我们提供专业的批量设计服务,支持全基因组或靶向CRISPR敲除文库的构建。基于CRISPOR 工具,我们可以批量处理数千个基因的sgRNA设计需求。用户只需提供目标基因列表(支持基因符号、Ensembl ID、RefSeq ID等多种格式),系统即可自动完成以下工作:
(1)自动识别每个基因的所有外显子,优先靶向功能域集中的外显子或5'端外显子;
(2)对每个基因设计4-6条sgRNA,确保即使部分sgRNA失效仍有备选方案;
(3)应用我们的智能筛选系统对每个基因的候选sgRNA进行排序,输出Top 4序列;
我们的批量设计服务已成功支持多个高通量筛选项目,包括全基因组CRISPR筛选、靶向药物靶点筛选等。相比使用公开文库(如Brunello、GeCKO等),定制化设计的文库具有更高的物种特异性、更好的敲除效率和更低的脱靶风险,特别适合非人类物种或需要高精度的研究项目。
3. 技术优势与方法学验证
3.1 核心技术优势对比
相比于直接使用CRISPOR在线工具或其他sgRNA设计平台,我们的服务具有以下显著优势:
对比维度 | CRISPOR原始输出 | 我们的智能筛选服务 |
候选数量 | 通常输出10-50条候选sgRNA,需用户自行筛选,缺乏明确优选标准 | 经过双阶段筛选,精准输出Top 4最优sgRNA,节省客户筛选时间 |
筛选策略 | 提供多种评分指标,但未明确优先级和权重,用户需要自行判断如何平衡不同指标 | 基于实验逻辑的四级排序系统,明确各指标权重(功能性>特异性>效率>脱靶数),科学合理 |
质量控制 | 提供颜色标记(绿/黄/红)作为粗略质量分级,但仍包含较多边缘质量序列 | 硬性过滤标准(GC 40-60%,MIT>50,GrafStatus=OK)剔除所有低质量序列,保证基础质量 |
个性化程度 | 标准化输出,不考虑具体实验场景和客户特殊需求 | 可根据客户需求调整筛选参数(如临床级应用可收紧特异性阈值),提供个性化方案 |
批量处理 | CRISPOR Batch支持批量输入,但输出结果仍需人工逐一筛选,工作量大 | 自动化批量筛选,可同时处理数千基因,每个基因自动输出Top 4,适合文库构建 |
技术支持 | 仅提供在线工具和文档,无专业技术支持 | 提供专业的生物信息学支持和实验咨询,包括后续的载体构建、验证方案设计等一站式服务 |
4. 应用场景与服务优势
4.1 应用场景
(1)基因功能研究:设计高效sgRNA进行基因敲除/敲入,研究目标基因的生物学功能。我们的高移码评分优先策略特别适合基因家族成员的功能解析——通过精确靶向特异性外显子,实现单一成员的功能性敲除而不影响其他旁系同源基因。
(2)高通量功能筛选:构建全基因组或靶向CRISPR敲除文库用于药物靶点筛选、合成致死筛选等。我们的批量筛选服务可处理数千基因,每个基因自动输出质量优化的4条sgRNA,相比公开文库具有更高的平均编辑效率(提升约15%)和更低的脱靶风险,提高筛选的信噪比和假阳性控制。
(3)基因治疗产品开发:为CAR-T疗法(如TRAC、B2M基因敲除)、体内基因编辑等临床应用设计超高特异性sgRNA。我们可提供临床级筛选标准(CFD>0.9,脱靶位点<3个),并支持后续的全基因组脱靶NGS验证服务,提供符合FDA/EMA/NMPA监管要求的脱靶安全性评估报告,支持IND/CTA申报。
(4)农业生物技术与合成生物学:支持作物改良(抗病基因编辑、品质改良、非生物胁迫抗性等)和工业微生物改造。CRISPOR支持水稻、小麦、玉米、番茄、大豆等主要作物以及酿酒酵母、大肠杆菌等工业菌株,我们的批量设计服务可快速构建多基因代谢通路编辑方案。
4.2 服务优势
(1)核心技术优势——智能筛选算法:我们自主开发的双阶段筛选系统(硬性过滤+四级排序)是服务的最大亮点。该系统基于对CRISPR实验逻辑的深刻理解,将复杂的多维度评分整合为清晰的优先级排序,从数十个候选序列中精准筛选出Top 4最优sgRNA,显著提高实验成功率并节省客户的筛选时间。
(2)批量处理与文库构建能力:支持从单基因设计到全基因组文库构建的多种规模需求。我们的自动化流程可在2-3个工作日内完成1000个基因的批量设计,输出可直接用于芯片合成的寡核苷酸序列文件,大幅缩短文库构建周期。定制文库相比商业公开文库具有更好的物种适配性和更高的整体质量。
5.sgRNA设计结果示例
初始阶段,CRISPOR平台可能为每个靶点生成数十个候选sgRNA。我们的双阶段筛选系统首先通过严格的硬性质量过滤,随后应用四级智能优先排序算法,最终为每个靶点精准筛选出Top 4最优sgRNA候选。这一过程不仅大幅提升了筛选效率,更重要的是确保了最终推荐序列在功能性、特异性和效率等多个维度上达到最佳平衡。

6. sgRNA设计服务内容
服务流程 | 服务内容 |
需求沟通 | 明确研究目标(基因敲除/敲入/碱基编辑等)、物种信息、靶基因列表或靶序列、核酸酶类型(SpCas9/SaCas9/Cpf1等)、实验规模(单基因/批量/全基因组文库)及特殊需求(如临床级高特异性要求、优先靶向外显子等) |
初步设计 | 基于CRISPOR平台进行初始sgRNA设计,获取所有候选序列及其多维度评分数据(MIT/CFD特异性、Doench效率、Out-of-Frame评分、脱靶位点统计等) |
智能筛选 | 应用我们的双阶段筛选系统:第一阶段进行硬性质量过滤(GC 40-60%,MIT>50,GrafStatus=OK),第二阶段执行四级智能排序(移码评分↓→CFD特异性↑→Doench效率↑→脱靶数量↓),精准筛选出Top 4最优sgRNA |
详细报告交付 | 提供标准化专业报告,包括:Top 4推荐sgRNA列表(含完整序列、所有评分指标、筛选依据说明) |
*服务周期:单基因设计2个工作日;批量设计(<100基因)3-5个工作日;大规模文库设计(100-1000基因)5-10个工作日;全基因组文库设计(>1000基因)10-15个工作日。
7. 客户需提供信息
信息类别 | 具体要求 |
必需信息 | 物种信息(拉丁学名或常用名称,如Homo sapiens、小鼠、斑马鱼等); 靶基因名称或基因ID(如人类HGNC符号、小鼠MGI符号、Ensembl ID、RefSeq ID等),或直接提供目标序列(FASTA格式,建议长度>200bp以确保有足够候选sgRNA); 核酸酶类型(SpCas9/SaCas9/Cpf1等); 编辑类型(基因敲除/敲入/碱基编辑/先导编辑等) |
推荐提供信息 | 细胞系或动物品系的遗传背景信息(用于SNP筛查和个性化设计); 首选靶向外显子编号或功能域(如优先靶向N端外显子、催化结构域等); |
批量设计额外信息 | 目标基因列表(Excel格式,包含基因符号、基因ID等); 每个基因需要的sgRNA数量(默认4条,可定制2-10条); 文库构建策略; 是否需要添加对照sgRNA(阴性对照、阳性对照) |
*注:对于非常规模式生物或自定义基因组,客户需提供参考基因组序列文件(FASTA格式)及基因注释文件(GFF/GTF格式)。对于临床级应用或高风险脱靶位点较多的基因,强烈建议选择NGS脱靶验证服务以满足监管要求和确保实验安全性。我们支持灵活的服务定制,可根据具体项目需求调整筛选标准和交付内容。
8.参考文献
[1] Concordet, J. P., & Haeussler, M. (2018). CRISPOR: intuitive guide selection for CRISPR/Cas9 genome editing experiments and screens. Nucleic Acids Research, 46(W1), W242-W245.
[2] Haeussler, M., et al. (2016). Evaluation of off-target and on-target scoring algorithms and integration into the guide RNA selection tool CRISPOR. Genome Biology, 17, 148.
[3] Doench, J. G., et al. (2016). Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9. Nature Biotechnology, 34, 184-191.
[4] Doench, J. G., et al. (2014). Rational design of highly active sgRNAs for CRISPR-Cas9-mediated gene inactivation. Nature Biotechnology, 32, 1262-1267.
[5] Moreno-Mateos, M. A., et al. (2015). CRISPRscan: designing highly efficient sgRNAs for CRISPR-Cas9 targeting in vivo. Nature Methods, 12, 982-988.
[6] Bae, S., Kweon, J., Kim, H. S., & Kim, J. S. (2014). Microhomology-based choice of Cas9 nuclease target sites. Nature Methods, 11, 705-706.
[7] Najm, F. J., et al. (2018). Orthologous CRISPR-Cas9 enzymes for combinatorial genetic screens. Nature Biotechnology, 36, 179-189.
[8] Canver, M. C., et al. (2018). Integrated design, execution, and analysis of arrayed and pooled CRISPR genome-editing experiments. Nature Protocols, 13, 946-986.
[9] Pinello, L., et al. (2016). Analyzing CRISPR genome-editing experiments with CRISPResso. Nature Biotechnology, 34, 695-697.