Geneious中使用NGS数据执行映射Mapping和SNP调用

基于机器学习翻译,仅供参考

在本教程中,您将学习如何使用新一代测序(NGS)数据执行参考装配,并在组装的重叠群上调用SNP。您将了解NGS工作流程的典型步骤,如质量修整,读取配对和生成共识序列。

练习1:准备数据

练习2:映射到参考

练习3:探索重叠群组文件

练习4:调用SNP

练习5:比较SNP

练习1:准备数据

在本教程中,我们将使用Illumina序列读数的数据集来映射到大肠杆菌基因组中的单个基因在这个练习中,我们将通过修剪质量差的基地来准备绘图数据。

阅读配对

大多数新一代测序平台,如Illumina,Solid,Ion Torrent和454都提供了双端测序的选项。这会从相同的DNA片段产生两个序列读数,这些片段被已知的插入片段长度分开,这有助于数据的组装。配对的最终数据集通常包含两个序列文件,一个包含正向读取,另一个包含反向读取。通过选择两个文件并转到序列→设置配对读数,然后选择库类型和插入大小(由您的序列提供者提供),可以在Geneious中配对读数在本教程中,此步骤已完成,并且您提供了一对配对读取文件,插入大小为500 bp。选择yghJ配对的Illumina读取文件,你会看到每个序列都标有正向或反向标签。

修剪

在组装之前,质量差的数据应该从读取的末尾进行修剪。选择配对读取文件后,转到注释和预测→修剪结束我们将使用默认设置进行修剪,因此单击窗口左下角的Settings cog下面的Reset to Defaults 重置为默认设置)(如果显示为灰色,则默认设置已经加载)。

设置错误概率限制时,Geneious将使用修改后的Mott算法根据其质量得分修剪从5`和3`末端的读取。我们将使用默认设置0.05。

点击确定,你会看到粉红色的“修剪”注释已被添加到一些读取。这表示已被修剪的质量差的序列。虽然序列在修剪后的注释上仍然可见,但它不会在装配过程中使用,也不会用于任何下游分析,如SNP调用。

在继续练习2之前单击保存

练习2:映射到参考

按住Shift键,选择修剪读数文件和参考序列(yghJ CDS )。点击对齐/组装→映射到参考,然后重置为默认设置(如果尚未设置)。

在顶部数据面板中设置装配的参考序列Geneious将猜测您选择的哪个序列是参考,但您可以使用下拉菜单更改此参数。在这种情况下,它已经正确选择,并且“yghJ CDS(发散参考)”应该被显示为参考序列。

请注意,在Geneious 8.1及更高版本中,在打开Map to Reference窗口之前,不需要预先选择参考序列。相反,可以通过单击安装选项中选择按钮从数据库中的任何文件夹中选择它。

在“ 方法” 面板中,确保选择“Geneious”作为映射器这里提供了许多不同的映射算法,这些算法根据所组装的数据类型具有不同的优缺点。这里给出了可用的不同算法的简要概述。

敏感性应在中等灵敏度/快速设置。Geneious会根据数据集的大小自动选择适当的敏感度。对于下一代测序,推荐使用中等或中低敏感度,因为使用高灵敏度需要很长时间,并且如果您有足够的覆盖率,则不太可能改善结果。微调选项可以提高的结果通过调心,除了参考序列读取对方-设置此的“迭代5次”。

确保选中使用现有修剪区域,然后在结果面板选择保存装配报告保存重叠群如果已选中,请取消选中“保存在子文件夹中”。您的Map to Reference选项现在应该如下所示:

单击确定运行程序集 - 可能需要几分钟才能完成。

现在应该在您的文档表中创建两个新文档 - 重叠映射到引用的重叠文本和汇编报告。打开汇编报告,您将看到汇编了多少个读段,花了多长时间,以及产生了多少contig。我们将在下一个练习中进一步探讨contig文件。

练习3:探索重叠群组文件

打开重叠群文档(应将其称为“读取装配到yghJ CDS”),以查看读取如何映射到参考序列。序列查看器右侧的“ 高级设置” 选项卡下,确保选中“Vertically compress contig”。这将在水平行中显示读数。现在回到常规选项卡,并确保颜色设置为“成对距离”。通过此设置,您可以根据您在设置配对读取时指定的插入大小,一目了然地查看您的配对读取是否以预期距离分开映射。在这个重叠群中,您可以看到大部分读数都是绿色的,这意味着它们大致与预期的插入大小一致。点击插入尺寸查看序列查看器上方的标签,查看插入大小的实际分布。您可以看到大多数对映射的插入片段为450-500bp,接近预期的500bp大小。

切换回Contig视图在contig的顶部,您将看到一个共识序列放大以便您可以看到序列基础。这是只读的共识,不包括参考序列。用于调用共识的设置在序列查看器右侧的“显示”选项卡下设置。由于这些读数附有质量分数,应选择最高质量作为调用共有序列阈值该设置计算了大多数人的共识,其中考虑了该位置每个基地的相对质量分数(有关更多信息,请参见Geneious用户手册)。

现在将阈值更改为“100% - 完全相同”。您应该会看到许多不明确的基地出现在序列中。在这种设置下,即使读数只有一个读数包含不同的碱基,也会在读数中有碱基混合的地方插入模糊的碱基。此设置应用于绘制NGS数据,因为它会在共识序列中引入读取错误导致的模糊性,而不是真正的多态性。如果读数没有质量得分,那么90-99%的阈值最适合确保只有真正的多态性在您的共有序列中显示为含糊不清的碱基。将设置更改为95%以查看它如何影响歧义,然后将其更改回本教程其余部分的“最高质量”。

在共识序列下方,您应该能够看到蓝色覆盖图,如下面的屏幕截图所示。如果看不到这一点,请点击序列查看器右侧的图表选项卡并启用“显示图形”和“覆盖率”。覆盖图显示每个基地有多少个阅读地图,可用于评估地图质量。

Geneious有两种工具可以让您快速识别覆盖率高或低的地区:

  1. 图表选项卡下,您可以突出显示某个覆盖范围之上或之下的区域。选中“突出显示上方”并将其设置为50.现在您应该在涵盖覆盖范围大于50的区域覆盖图中看到一个黄色条。
  2. 您可以通过转到注释和预测→查找低/高覆盖率注释覆盖率较高或较低的区域

我们将使用第二个选项来注释低覆盖区域,以便在下一个练习中调用SNP时排除这些区域。选中查找覆盖范围下方的区域,然后从平均值= 2中选择标准偏差选中两个合并区域选项并取消选中高覆盖率选项。点击确定您现在应该可以在参考序列上看到覆盖率注释轨迹,该覆盖率覆盖率较低的区域中有注释。单击保存并在询问您是否要将更改应用于原始序列时选择“是”。

练习4:调用SNP

We will now use the Geneious variant finder to find SNPs in our mapped data. Select the contig document and go to Annotate and Predict → Find Variations/SNPs. Reset to the default settings using the Settings cog at the bottom left.

The options in the top (“Find Polymorphisms”) panel allow you to set the parameters for when SNPs are called, so that disagreements that result from sequencing errors are filtered out. We will use the default settings as they are normally appropriate for identifying real SNPs – if you want more information on these settings click the “?” button or mouse over the option.

确保检查翻译中多态性分析效果的选项,并将默认遗传密码更改为“细菌”。这使用我们的参考序列上的CDS注释来确定我们的映射读取的编码序列,并计算观察到的SNP是否会导致氨基酸序列发生变化。

保持其他选项不变,然后单击确定

您现在应该可以看到添加到参考序列中的名为“Variants:yghJ paired Illumina reads”的注释轨道。单击保存并在询问您是否要将更改应用于原始序列时选择“是”。这会将您的SNP曲目加载到原始参考文档上。

沿contig文档滚动到包含SNP注释的位置(用垂直的黄色条表示)。将鼠标悬停在注释上,您将看到一个弹出窗口,其中包含有关该SNP的信息。这包括基础变更,变异频率,SNP类型以及有关蛋白质和CDS变化的信息。

要在表格中显示此信息,请单击序列查看器上方的注释选项卡。这将调出序列中所有注释的表格。点击Type 并选择“Polymorphism”以仅显示多态性注释。该表应自动显示相关列,如多态性类型,变异频率,氨基酸/密码子/碱基改变等。要显示更多列或删除现有列,请单击按钮并添加/删除所需的列。

一旦你的表格看起来像你想要的那样,你可以通过点击导出表格将它导出到电子表格这将以逗号分隔(.csv)格式导出您的表格。

练习5:比较SNP

Geneious有一个比较批注功能,可以根据它们与另一个注释轨道或注释类型的重叠来过滤SNP。我们将使用此功能筛选出覆盖率较低地区*的SNP。

在练习3中,我们创建了一个名为“覆盖率”的注释轨迹,以确定覆盖范围低于平均覆盖率两个标准偏差的区域。比较注释将允许我们从属于低覆盖率注释的Variants轨道中排除注释。

选择您的参考序列“yghJ CDS(发散参考)” 这现在应该有你在早期练习中创建的曲目。转到注释和预测→比较注释您可以在“注释类型”面板中指定希望比较的注释。对于Set A,选择“Polymorphism”“在轨道变体:yghJ配对Illumina读取”,并且对于集合B 在轨道上选择“Low”覆盖:yghJ配对Illumina读取“。在比较下,取消选中名称必须匹配,因为多态性和覆盖率注释具有不同的名称。选中允许间隔与...部分匹配,因为这将返回多态性,例如部分位于低覆盖率注释中的indels。

根据结果​​检查AB 这将返回与覆盖注释不重叠的多态注释 - 右边的维恩图,“示例”面板以图形方式显示。窗口现在应该如下图所示。

点击OK ,你现在应该会在你的参考序列上看到第三条注释轨迹,名为“Variants:yghJ配对的Illumina读取 - 覆盖率:yghJ配对Illumina读取”。该轨道比原始变体轨道具有更少的多态性注释。滚动到序列末尾有一个名为“1→44”的低覆盖率注释。您会看到,在低覆盖率注释下的原始变体轨道中存在大量多态性注释,并且这些注释已从新轨道中排除。

单击保存将新轨道录制到您的参考序列中。

*注意:为了在本教程中进行演示,我们使用比较批注过滤了低覆盖率的SNP。但是,您可以设置SNP查找程序来自动筛选出低覆盖率的SNP,而无需执行此步骤。为此,请检查查找变体/ SNP 最小覆盖率框,然后输入要调用的SNP所需的最小覆盖率。

恭喜,您现在已经完成了Mapping和SNP调用教程。

Need more info?

This documentation page has been extracted from the Q&A section where you can discuss it and get feedback.
Related question