Geneious中使用Sanger测序数据进行系统发育和群体遗传研究

基于机器学习翻译,仅供参考



在本教程中,您将学习从Sanger测序运行产生的典型原始序列数据,并学习如何编辑和对齐下游分析的色谱图,如构建系统发育树或计算核苷酸多样性。本教程涵盖批量修剪质量差的序列,编辑序列或程序集的序列,发现杂合体和错误地称为碱基,以及从同一基因的正向和反向读取构建共有序列。

练习1:编辑线粒体DNA序列  编辑和比对蓝山雀特有的一组线粒体DNA序列

练习2: 处理双向核序列数据编辑和组装来自三个芦苇鸣鸟物种的核基因序列的正向和反向读数。

本教程需要安装Heterozygotes插件。要安装它,请转至工具 - >插件,在可用插件列表中找到它,然后单击安装

线粒体DNA序列 - 简介

蓝雀物种复合体包括在整个欧洲发现的C. caeruleus在北非和加那利群岛发现的C. teneriffae,以及在亚洲和东欧发现的C. cyanus线粒体DNA数据可用于研究这些物种的系统地理学和种群结构。

这里提供的数据集包括来自C. caeruleusC. teneriffae的线粒体DNA控制区的34个序列还包括来自大山雀帕鲁斯大学的序列,因为这将是用于系统发育分析的合适的外群。

下表给出了本教程中序列的采样位置和代码

种类起源
CEHC. teneriffae加那利群岛 - 埃尔耶罗
CFUC. teneriffae加那利群岛 - 富埃特文图拉
CGCC. teneriffae加那利群岛 - 大加那利岛
CLGC. teneriffae加那利群岛 - 戈梅拉
CLPC. teneriffae加那利群岛 - 拉帕尔马
CLAC. teneriffae加那利群岛 - 兰萨罗特岛
CTEC. teneriffae加那利群岛 - 特内里费岛
MCEC. teneriffae摩洛哥 - 休达
ECAC. caeruleus西班牙 - 加的斯
SREC. caeruleus瑞典 - Revinge
GBC. caeruleus英国 - 牛津
Pmaj体育专业瑞典 - Kvismaren

练习1:编辑线粒体DNA序列

选择包含来自线粒体DNA控制区域的原始序列数据的序列列表。双击列表在新窗口中打开它。序列视图右侧常规选项卡中,选择根据质量显示颜色。这将根据该基地的序列质量突出显示碱基电话 - 蓝色越深,质量越低。

缩小时,您将看不到各个碱基或色谱峰,但会显示一张图表,显示序列质量。如果向下滚动序列,您会看到每个序列结束时序列质量显着下降。放大至少50%,查看色谱图在良好质量区域和低质量区域中的效果。其中一个序列(CLG3)没有序列,表明测序反应失败,因此将其从列表中删除。在序列变得不可读之前,序列SRE1只有一小段高质量的序列,因此也要删除这一序列。保存编辑后的序列列表并关闭窗口。

通过单击注释和预测→修剪结束修剪序列末端的质量较差的基础选择“从序列中删除新的修剪区域”,并将错误概率限制设置为0.01,如下面的屏幕截图所示。点击确定,然后在修整完成保存

从这里开始清理和编辑序列一旦对齐后,效率会更高。再次选择序列列表(Cyanistes CR序列),然后单击对齐/组装→多重对齐选择MUSCLE 对齐算法并使用默认设置运行它。

双击对齐将其打开并放大到约50%,以便可以看到碱基调用和色谱图。您可能需要检查显示图形图形选项卡中才能看到的色谱图。滚动到3'末端的碱基,您会看到在GGGGGGGGAAGGGGGGGGG motif之后碱基调用变弱(请参阅下面的截图)。在许多序列中,这个主题之后的区域已经被删除。通过单击允许编辑修剪剩余的序列,然后从共同序列的碱基563开始选择碱基并敲击删除键。编辑共有序列会将更改应用于对齐中的所有序列。您还应该删除比对开始时的前20个碱基,以使序列长度相同,因为该区域已在多个序列中被删除。

单击保存在询问您是否要将更改应用于原始序列时选择请注意,如果要保留原始原始数据文件,有时最好不要将更改应用于原始序列。

现在可以使用Geneious中Tree 函数,利用这种比对来构建这些序列的系统发生树有关构建和解释系统发育树的更多信息,请参阅我们网站上提供的Geneious系统发育分析教程

练习2:处理双向核子序列数据

本练习将为您提供更多练习处理和编辑Sanger测序产生的原始序列数据。

Acrocephalus序列列表包含来自3种不同尖头war莺物种的核基因的正向和反向序列序列用三个字母的代码来命名,以表明它们的物种(aru = A. arundinaceus,大芦苇莺; dum = A. dumetorum,Blyth's reed warbler;或= orientalis,Oriental reed warbler),并用'F'或'R'来表明它们是用正向引物还是反向引物进行测序。

双击Acrocephalus序列列表以在新窗口中打开它。向下滚动以获得序列的概述。请注意,在一些序列中,序列质量会下降(例如dum2和dum4序列)。

通过单击注释和预测→修剪结束修剪序列末端的质量差序列这次我们将注释修剪区域而不是完全删除它们,所以选择“注释新修剪区域”。将错误概率限制设置为0.01,然后单击确定修剪完成后保存顺序列表并关闭顺序列表窗口。

我们现在需要从列表中提取序列文件以设置读取方向并使用杂合子查找程序,因为这些选项在序列列表中不起作用。选择Acrocephalus序列列表并单击序列→从列表中提取序列选择将序列保存在称为Acrocephalus序列的子文件夹中。

我们现在将在各个序列文件上运行Heterozygote Finder,以识别并注释在相同位置上调用两个不同核苷酸的碱基。由于这些核序列均代表两个等位基因,所以可能存在两个等位基因具有不同碱基且存在双色谱峰的杂合位置。选择Acrocephalus Sequences文件夹中的所有文件并单击Annotate and Predict→Find Heterozygotes 取消选中已修整区域中的搜索,因为序列质量差的区域不会给出准确的结果。峰相似性设置为50%,并选择注释杂合体碱基。

点击确定在分析完成后保存序列。在我们组装正向和反向序列之后,我们将回到被标注为杂合体的碱基。

我们现在将为每个人组装正向和反向序列。为确保序列在每一对中以相同方向组装,我们首先需要设置读取方向。按住命令/ cntrl键,选择文件夹中的所有转发序列(以F作为最后一个字母命名),然后选择序列→设置读取方向选中Forward 框并点击OK 不需要设置反向读取的方向。

现在选择文件夹中的所有序列,然后选择对齐/组装→De Novo组装点击Assemble by ,然后选择名称的第一部分,用下划线分隔这将为每对正向和反向序列产生一个重叠群。将灵敏度设置为最高灵敏度/慢速,并确保保存装配报告保存未使用读数的列表保存子文件夹保存重叠群选择使用现有修剪区域- 使用此选项,汇编器将忽略注释为修剪的区域,但您仍然能够在序列中看到这些区域。点击好的

现在已创建一个名为Assembly的子文件夹,其中包含重叠群和Assembly报告。您还会看到未使用的读取序列列表,其中包含无法组合的序列。看看这个序列列表,你会发现这些序列只包含一小段优质序列(dum2和dum4)。

练习2b:检查程序集并提取共识

从组装子文件夹打开aru2重叠群,了解正向和反向序列是如何组装的。

序列查看器右侧的“ 显示” 选项卡,检查调用共有序列的选项。当从同一个基因组装正向和反向序列时,从每个基地的最高质量序列中调用共识是合理的,因此选择共识下的最高质量

高级选项卡下,将基本号码设置全部序列这将显示来自每个序列上原始序列读数的碱基编号,并使您能够看到两个序列是如何组装的。您可以看到R序列现在处于相反的方向。

Graphs 选项卡下,选中Coverage Identity 框。覆盖图显示共有序列基于多少个序列,并且同一性图表指示参与序列是否相同。尽管您仍然可以看到质量差的序列已被标记为修剪(粉红色条),但您可以看到汇编器没有使用此序列调用共有序列或计算覆盖率 - 只有该区域中的单个良好序列具有已被使用。

对于Aru2,只有一个碱基在正向和反向序列之间存在分歧。放大并找到这个基地。您可以使用cntrl /命令D键盘快捷键快速跳转到存在分歧的地方。在这个位置,反向序列中的碱基被错误地称为 - 它应该是A,但被称为C.

如果您愿意,您可以在此位置编辑错误序列调用,但由于我们选择基于最高质量调用共有序列,所以共有序列中的碱基是正确的。这是用于下游分析的共有序列,因此如果共识是正确的,则不必编辑个体阅读中的每个不同意见。选择共识序列并单击提取命名您提取的序列(例如aru2 consensus)并单击确定

现在打开ort1程序集。这个序列有几个杂合碱基被注释,应该检查它们以确保它们被正确地调用。单击ort1_R序列上的第一个杂合性注释(在共有序列的基数68处)并放大到100%。在这个碱基上,单个“G”峰已被正确调用,所以这被错误地鉴定为杂合碱基,因为与相邻的“C”碱基重叠很小。通过右键单击并删除此注释并选择注释→删除

现在使用cntrl / command-D跳转到下一个杂合基。在此基础上(共有序列上的第170位),在正向和反向读数中存在真正的双峰,其中C和T峰叠加在彼此之上,表明这是真正的杂合基。被称为共有序列的碱基应该是“Y”,表示该位置含有C和T核苷酸(见IUPAC注释)。

现在检查本装配中剩余的杂合碱基,并根据需要添加IUPAC模糊编码编辑共有序列,以反映杂合位置。尝试进行任何更改之前,请勿忘记单击允许编辑保存更改并选择当系统询问是否要应用更改原来的顺序,然后选择保守序列并提取它。

打开每个其他重叠群,并检查正向和反向阅读和杂合体碱基之间的不一致。如果需要,编辑它们,然后提取每个序列的共有序列。

练习2c:装配参考

为了组装两个以前不能工作的A.umeumeum序列(因为序列的重叠部分质量差并且被修剪掉),我们将组装部分序列对照参考。点击Assembly 上的Unused Reads 序列列表,然后按住控制/命令键,点击我们将用作参考的dum3一致序列。点击对齐/组装→映射到参考确保将dum3一致性序列设置为引用,然后选择Assemble by ,然后选择名称的第一部分,并用下划线分隔设置其他选项,如下面的截图所示。

现在应该有两个新的重叠群组件,一个用于dum2,一个用于dum4。打开dum2组件。您现在应该能够明白为什么这些不使用de-novo assembly进行组装,因为有一个4 bp的区域,没有高质量的序列在F和R序列之间重叠。在这两个序列中进行了修剪的双峰区域从这里开始 - 这可能表示一个indel,其中两个等位基因之一包含一个缺失。

通过在共有序列中选择4 bp缺口并单击添加注释,为共有序列添加注释以突出显示indel 将注释类型设置为Polymorphism ,并将其命名为Indel 点击确定,你现在应该看到这个注释添加到共识序列。单击保存,然后将dum2共有序列提取到新文件。

对包含dum4序列的其他引用程序集重复此过程。

练习2d:分析共识序列

您现在应该已经为所有9个样本生成了共有序列。这些序列可以进行比对,以便它们可以用于群体遗传或系统发育分析。选择所有共有序列,然后单击对齐/组装→多重对齐使用Geneious Aligner进行默认设置。

打开对齐并单击距离选项卡以获得物种内部和物种之间核苷酸多样性的概述。如你所料,序列在物种内比物种间更相似。事实上,A. arundinaceus(aru)的序列是相同的。您现在可以使用Geneious中的Tree构建工具对序列进行系统发育分析,或者对于更高级的群体遗传分析,可以将Fasta或Nexus格式的比对输出到DNAsp等程序中进行分析。

教程结束。

需要更多的信息?

本文件頁面已被提取的Q&A部分,在那裡您可以討論,並得到反饋。
相關問題