二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识

5. NGS数据的产生、管理、信息学分析:

由于NGS数据庞大,数据管理、储存和分析需要强大的计算平台支持。数据的质量检查、信息学分析、输出格式、储存等方面都应有标准SOP支持。最好有结构化的数据库来管理原始数据、质控数据以及分析结果数据等。

声明20:数据分析工具(软件)的能力验证。需要采用适量例数的原始数据针对NGS数据分析工具进行验证分析。通过采用携带不同种类与丰度变异的数据来验证整个分析流程的准确性与稳定性。特别是在增加检测基因的内容时需要验证分析工具的可靠性。分析工具的能力验证应有详细的内部软件验证记录。CSCO CAGC项目也将组织开展软件分析能力验证。

声明21:数据产生和管理储存。检测实验室必须采用结构化的数据库来注释SNP、Indel、重排(融合)、CNV等各类变异信息。

声明22:数据储存应该采用通用的FASTQ、BAM、VCF格式,便于数据交换及实验室间评价。同时保存完整的log日志文件,便于区别流程版本信息、追溯异常结果来源及分析原始数据向诊断报告生成的可重复性。诊断实验室应该长期保存相关的数据集(至少15年)。

声明23:NGS原始数据的质量检查,应有严格的操作规程指导。所有参数需与检测性能评价过程中的参数进行比较,设置并执行接受与拒绝的标准。参见表1。

表1. 基于原始序列(FASTQ)和比对后序列(BAM)质量的计量参数

参数 描述
每循环的中位碱基质量 在序列片段末端碱基测序质量会急剧降低。序列质量评分不能低于20(Phred序列质量评分)
重复片段占比 重复测序片段占比是反映文库构建的复杂度的指标
去除接头序列碱基的占比(如果适用) 在去除接头序列时,去除的碱基所占比例是反映序列质量的指标
比对成功的片段占比 能够比对到参考基因组序列上面的测序片段的比例
目标区域片段占比 能够比对到富集目标基因组区域的片段在所有测序片段中所占的比例
目标区域的平均测序深度 符合临床需求的目标检测区域中所有位点的平均测序深度
目标区域测序深度的分布 在符合临床需求的目标区域所覆盖的所有位点中,绘制测序深度分布图或不同测序深度覆盖位点的占比表格。

 

变异检测质量的相关计量参数

参数 描述
总变异数量 符合临床需求的目标区域中检出的的总变异数目应当与同类病人群体且采用相同捕获区域以及处理方法相同的样本结果相类似。
已知的多态性比例 每个样本中大部分被检测到的变异(> 90%)都应该是已知的基因多态性。
插入或缺失(Indel)变异比例 插入或缺失变异占总变异数的比例
纯合型变异的比例 纯合型变异占总变异数的比例
无义突变比例 无义突变占总变异数的比例
转换/颠换比值 转换/颠换突变之间的比值

 

声明24:数据分析的流程包括初步分析、接头序列去除、引物序列去除、低质量序列去除、参照基因组序列比对(mapping)、去重、Indel重复比对、碱基质量得分校正、突变识别(variant calling)、注释、过滤后输出等流程(见下表2)。CAGC POI项目需要在各个瘤种中的每一步都应做到同质性。

表2. 临床肿瘤NGS测序的简单流程步骤描述

处理步骤 过程描述 工具及数据库 输出
碱基识别和去重复 碱基识别和去重复,又称为初级分析 测序平台的配置软件 FASTQ文件
去除引物序列 扩增子测序的引物序列必须从测序片段中去除 CutAdapt,BWA(比对和剪辑序列的软件) FASTQ文件或BAM文件(由如BWA的比对软件生成)
去除接头序列(可选项) 将测序接头序列从测序片段末端去除。如果不能去除,测序接头可能会干扰序列比对和变异检测,从而导致假阳性或假阴性突变。 CutAdapt,BWA(比对和剪辑序列的软件),Trimmomatic,SeqPrep FASTQ文件或BAM文件(由如BWA的比对软件生成)
去除低质量碱基(可选项) 低质量的碱基也可能干扰序列比对和变异检测,可以将其从测序片段末端(或前端)去除。 CutAdapt,BWA(比对和剪辑序列的软件),Trimmomatic,SeqPrep FASTQ文件或BAM文件(由如BWA的比对软件生成)
序列比对 在序列片段比对阶段,双端/单端序列片段都被比对到参考基因组上,单碱基改变和插入缺失变异都会在这个过程中被识别出来。序列比对通常是针对整个参照基因组,即使测序只是针对一个小的基因集合。 BWA, Novalign, Stampy,SOAP2, LifeScope, Bowtie. BAM文件
去重(可选项) 鸟枪法测序结果中重复片段较少,这是因为DNA是被随机打断的。然而,在扩增子测序中,PCR扩增会导致重复测序,因而重复序列应该被去除。 Picard MarkDuplicates BAM文件
插入缺失(Indel)再比对(可选项) 测序样本中Indel周围可能出现一些单碱基的测序错配误差,特别是容易发生在测序片段的开头或末端,因而造成假阳性突变判读。局部重新比对法可以确定这些位置并且通过局部重新比对来尽量减少这种错误,增加准确性。 GATK RealignerTargetCreator & IndelRealigner 和 SRMA BAM文件
校正质量评分(可选项) 与参考基因组比对之后 ,片段中的碱基质量评分可以被重校准以减少错误的突变判读。 GATK BaseRecalibrator & PrintReads, ReQON BAM文件
变异判读 变异判读是指依据测序数据与参考基因组之间的差异来检出和描述变异(包括单碱基改变和短的碱基序列插入或缺失) GATK UnifiedGenotyper, GATK HaplotypeCaller, samtools 和 Platypus VCF文件
注释 对变异的解读依托于详细的注释。最基础的注释有基因名,区域(外显子、拼接区域、内含子、基因间区域等)和译码改变信息。此外,可利用已知基因多态性的等位基因频率、致病性及其他数据库信息进行注释。 Annovar, SNPeff, Cartagenia Bench Lab NGS, dbSNP, 1000 Genomes, ESP 6500, SIFT, PhyloP, MutationTaster, COSMIC, OMIM, ClinVar, HGMD CSV, TSV, TXT, Excel文件或数据库
筛选 从大量的变异列表里寻找与鉴别疾病相关变异须经过严格的筛选。典型的变异筛选要排除低质量变异、非编码区(如内含子或基因间区域的变异)、同义SNPs、以及已知的健康人群中低频的基因多态性。实验室应该建立内部数据库,分析在自己的平台上经常出现的假阳性变异,针对这些假阳性变异进行严格的筛选去除。 Cartagenia Bench Lab NGS, SnpSift CSV, TSV, TXT, Excel文件或数据库

 

声明25:体细胞与胚系来源的变异应该加以区分。体细胞突变在肿瘤诊疗中的临床意义较大。特定的胚系突变的生物学意义需要说明,如乳腺癌中BRCA1/2的突变。

声明26:应对各个瘤种中与临床意义相关的变异重点进行关注分析和说明,比如肺癌中的EGFR exons 18-21突变、ALK重排、ROS重排、MET E14拼接变异、HER2插入突变或扩增等突变的说明。

近年来,关于肿瘤细胞分子异质性的研究进展发现,肿瘤中存在不同分子变异亚型的亚克隆。异质性亚克隆的存在会影响肿瘤疾病的整体进化路径及对靶向治疗的应答和耐药。因此NGS用于肿瘤诊断或耐药监测时需要达到较深的测序覆盖度,这样才能充分解释肿瘤转移进化过程中的异质性及其与临床表型的关系。

声明27:CAGC建议,临床肿瘤组织样本的NGS检测数据中测序“有效深度”应该达到 500X以上;血浆游离DNA标本的NGS“有效测序深度”应该达到1000X以上。
说明:(1)有效深度定义为去除PCR重复reads(duplicates)之后的深度;(2)应该在80%以上的目标捕获区域达到这个深度,而非是所有区域的平均,否则在区域间覆盖波动较大的情况下会有大量区域出现覆盖不够的情况。

声明28:CAGC项目数据的管理应该在标准流程和各类数据管理方面实现同一化。在后续将开展每个瘤种约100例的分析,从而对本次共识的可操作性进行验证。

 

 

相关文章
留下回复