一文读懂SV检测软件Manta的结果文件

Manta运行完毕后,将在 $ {MANTA_ANALYSIS_PATH}/results/variants 目录下输出一组VCF格式的结果文件。

无论是 diploidSV.vcf.gz , somaticSV.vcf.gz 还是 tumorSV.vcf.gz ,他们描述sv的规则是一致的,只是在记录的信息上略有不同。如,

使用 gzip -d -c *.file.gz > *.file 命令可生成解压缩的VCF文件。

对于大的片段缺失,在VCF中 ALT 一列会有 <DEL> 的标志, ID 中将以 MantaDEL 开头,使用 grep "<DEL>" diploidSV.vcf 命令可以直接将这一类的变异提取出来。 CHROM 和 POS 中记录的是该Deletion在参考基因组上的起始位置, FORMAT 中 END 记录的是Deletion在参考基因组上的终止位置, SVLEN 记录的是缺失片段的长度。
FORMAT 中的 PR 和 SR 记录的是支持REF和ALT基因型的Paired Reads数和Split Reads数。
在 diploidSV.vcf 中还会在 FORMAT 中包含基因型相关的信息,如GT,GQ, PL等(不懂这些概念?请参考: https://software.broadinstitute.org/gatk/documentation/article.php?id=1268 )。

对于大的片段插入,Manta会在 CHROM 和 POS 中记录DNA片段的插入位置,并在 ALT 中加入 <INS> 的标志, ID 中将以 MantaINS 开头。这里插入的“DNA片段”,个人理解指的是外源的DNA片段,即无法比对到参考基因组,或者无法比对到参考基因组唯一位置。因此,Manta只能通过断点附近的reads得到插入片段两端的序列,但无法将整个插入片段的序列组装起来(如果有不同意见,欢迎留言讨论)。 INFO 中的 LEFT_SVINSSEQ 和 RIGHT_SVINSSEQ 给出了插入片段左右两端的序列信息。

Manta中,符合以下几个条件的插入或缺失会被归类于small indels:

虽然这些小的indels的ID也以 MantaDEL 或 MantaINS 开头,但在VCF中的表示方式和前述的DEL和INS不同,Manta将这些变异的完整的插入/缺失序列给在了 REF 或 ALT 中。并且会在INFO中增加 CIGAR 标签,对此类变异进行描述。

Manta没有办法检测散在重复(Dispersed duplications),但可以检出串联重复(Tandem Duplicate)。

Manta对于染色体间易位和染色体内易位不做特殊区分, ID 都以 MantaBND 开头,BND即breakend的缩写。在 CHROM 、 POS 中展示第一个断点位置,在 ALT 中展示第二个断点位置,例如: A]10:115172011] 、 [12:70547434[C 。通过比较第一个断点和第二个断点的染色体,可以判断是染色体间易位还是染色体内易位(这里为了描述方便,使用了“第一个断点”、“第二个断点”的描述方式,事实上两个断点并没有顺序之分)。
值得注意的是, ALT 中方括号的方向在判断融合基因中有重要的作用。 ...]...] 指易位序列在第一个断点位置的3'端, [...[... 指易位序列在第一个断点位置的5‘端,如下图。

染色体片段在易位的过程中,可能会平移并连接到另一段染色体上(见下图 variant a),也可能翻转之后再连接到另一段染色体上(见下图 variant b)。具体看上面的两个例子,其中 example1 的两条记录ALT中的方括号方向不一样,它对应的是variant a这种情况; example2 的两条记录中方括号方向一致,对应的是variant b这种情况。

在默认情况下,Manta会用4条BND记录来表述一个倒位事件,并且这四条记录拥有相同的 EVENT 标签。下面是官网上给的例子:

但开发者另外提供了一个脚本 $MANTA_INSTALL_FOLDER/libexec/convertInversion.py 可以将BND记录的Inversion转换成另一种形式(见下),并以 MantaINV 作为 ID 的开头,每条记录表述一个新的连接点的信息,位置信息记录在 CHROM 和 POS 中。一条标准的Inversion应该有两连接点的记录,并且拥有相同的 EVENT 标签。

另外,在Inversion的记录中, INFO 中还提供了 INV3 、 INV5 两个标签,INV3指发生倒位的序列位于此记录报道的连接点的3'端,INV5指发生倒位的序列位于此记录报道的连接点的5'端。在IGV中,INV5标签对应的是"RR" reads,INV3标签对应的是"LL"reads(可参考我的 另一篇笔记 )。
需要注意的是,在实际应用中得到的VCF完成格式转换后,存在很多虽然标注为 Manta:INV ,但只有一条记录情况,因此实际上并不是一个标准的Inversion事件。

不同的SV检测软件都有自己的一套描述规则,有很多细节值得琢磨,以后有新的体会再慢慢补充。

(太詹备15240435975)c:spoo1sv.exe,怎样才能找到并删除 - ______ 打开C盘.按Win+F输入spoo1sv.exe进行搜索,找到后删除即可.不过还是建议楼主先使用杀软杀毒.手动删除未必就能彻底解决. spoo1sv.exe spoo1sv - spoo1sv.exe - 进程信息 进程文件:spoo1sv 或者 spoo1sv.exe 进程名称: Trojan.Win32....

(太詹备15240435975)sv0442(x)变频器中dclink充电异常 - ______ 成因:1、应用程序软件访问内存不正常有冲突,被入侵或入侵了别的软件运行空间.2、硬件或硬件驱动程序不兼容有冲突.3、系统安装了非法的、不健全的应用程序或者恶意、病毒等,造成了内存存取机制的混乱,所以系统报错.建议: 1、检查新近安装的应用程序,卸载并重新安装.2、采用最新专业的杀毒软件,查杀病毒.3、采用系统优化软件优化系统并清理注册表、系统垃圾等.4、重新安装操作系统.

(太詹备15240435975)电脑重启或关机时,有系统出错的声音,怎么办 - ______ 关机或重启,出错误一般为SVGHOST.EXE错误,如果不影响电脑运行的话,不必管它.

(太詹备15240435975)试述几种数字化测图软件的特点. - ______ 威远图SV300数字测图软件 产品特点 高效强大的地图绘制功能; 多种数据采集方式; 灵活方便的属性数据录入、编辑; 实现复杂的等高线绘制; 强大的专题图制作功能; 人性化的工程管理概念; 严密的质量控制体系,保证工程质量; 多样...

(太詹备15240435975)加载C:\WINDOWS\svstm32\vezt - w.dll时出错,拒绝访问 ______ 注册表修改法:“开始”→“运行”处输入“regedit”,在 “HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Run\”中,右边窗口找到残留的程序名删除.或者打开注册表编辑器 ,在编辑→查找中,输入出错文件名,把...

(太詹备15240435975)华硕笔记本硬盘灯亮时滋滋响怎么解决 - ______ 硬盘灯一闪一闪表示硬盘上有读写的操作,此时有轻微的“咯吱咯吱”的声音是正常的 希捷的硬盘的话,声音确实是比较大的,笔记本硬盘还是日立的比较好,读写时声音比较低的,所谓华硕的硬盘,其实也是6大硬盘品牌里的一个,日立和wd...

(太詹备15240435975)浩辰不保存没有保存又不由历史文件 - ______ 如果你画图时间超过自动保存的时间,可以找回自动保存文件看看,如果没有达到自动保存时间,就找不回来了.自动保存文件再当前用户的临时文件夹:%temp%文件夹下,扩展名是SV$,将扩展名改成DWG就可以打开.如果找不到SV$文件,那就没有办法了.更多CAD使用技巧请访问 CAD小苗 新浪博客

(太詹备15240435975)ansys 优化设计怎么创建分析文件gui操作 - ______ ANSYS 优化设计 2 几秒钟的优化过程结束后,让我们来看一下优化的结果: /opt optlist,all 图 3 优化结果 上图中左右带*的 SET 22 是最优解, 由此可以看出, 要想在表面积一定的情况下使水杯 容积最大,的确有这样一个规律 H=D=2*R.有兴...