第三节 常用分析软件与操作范例简介
一、在线分析软件
1.BLASTBasic Local Alignment Search Tool(BLAST)是NCBI所提供的序列寻找工具,找出NCBI数据库内与被检索序列(query sequence)相似的序列(subject sequence)。由其名字可知,BLAST所采用的是区域性排序(local alignment)算法。
BLAST内有5个主要的查询程序,对中药DNA分子鉴定而言,最常用的是BLASTN程序(最后的英文字母N代表核酸)。当用户对不知名的样本进行DNA测序,所得的序列(被检索序列)可上传到BLAST内,然后跟数据库内的序列进行比对及计算相似性,得分越高表示相似性越高。BLAST会找出相同或最相近的序列,按相似度由高至低排列出来,根据结果研究员便可鉴定样本。
2.Clustal WClustalW由EBI提供的多序列比较程序,兼容核酸和蛋白质序列(Thompson等,1994)。程序采用全域性排序算法(global alignment)。用户将序列以FASTA格式上载到服务器上,程序便会排比及计算两条序列之间的相似度,连同序列比较图及系统树显示。
3.NEBcutter由美国生物技术公司New England BioLabs开发的NEBcutter是一个限制性内切酶位点工具(Vincze等,2003)。NEBcutter会自动寻找DNA序列上的所有酶切点,然后以图像方式显示各位点在该序列上的位置,有助研究员寻找合适的限制性内切酶作PCRRFLP之用。
二、分析软件
1.BioEditBioEdit是一个免费的序列分析软件(Hall,1999),提供窗口接口操作环境,能轻易修改序列数据或微调排序结果。BioEdit可开启测序原始档,例如Applied Biosystem公司的ab1格式,检视序列峰的讯号。软件内建多个常用分析程序,例如ClustalW和PHYLIP等。此外,BioEdit可由排序结果计算各个品种间序列相似度的数组,然后转换成Microsoft Excel格式。因此,使用者从序列数据输入、多序列排序、微调排序结果、计算样本间的相似度,到建立系统树的所有工作,都可在BioEdit内完成。
2.MEGAMolecular Evolutionary Genetics Analysis(MEGA)是一个免费的分子系统学分析软件(Kumar等,2008)。初版于1993年发行,以窗口图形接口操作。最新版本是5.0 Beta 6.1,首次加入Maximum Likelihood算法,令功能更完备。和BioEdit一样,MEGA内建ClustalW作多序列排序,亦可作简单的排序结果微调。但两者侧重点不一样,BioEdit以序列分析和计算相似度为主,而MEGA注重系统树的建立。用户可更改系统树计算法的各项参数,对系统树作Bootstrap抽样,选择多种树形图类型等。
3.PAUPPhylogenetic Analysis Using Parsimony(PAUP)是美国Sinauer公司开发的分子系统学分析软件,具有不同操作系统版本,包括Windows、Mac OS、Linux/Unix,但只有苹果版本(Mac OS)提供窗口操作接口,其余版本以命令行字符界面操作。虽然PAUP是收费软件,但它计算速度快,所以在分子系统学领域中被广泛采用。
4.PHYLIPPhylogeny Inference Package(PHYLIP)是个免费分子系统学分析软件,初版于1980年发行,实际上是一个软件包,内含多个子程序,每个子程序只会负责一项计算工作,例如应用于核酸分析的DNAPARS和DNAMOVE,针对蛋白质的PROTRAPS和PROTDIST,负责计算遗传距离的FITCH和KITSCH等。使用者由输入序列数据到建立系统树,通常需要运用2个或以上子程序才能完成。当第一个程序运算后,所得出的结果便成为第二个程序的输入数据,然后再经过第三个程序,如此类推,直至得出最终结果。PHYLIP的优点是使用上较具弹性,但缺点是不提供窗口鼠标操作,要花较长时间学习。
5.GeneMarkerGeneMarker是一个由Softgenetics公司开发的基因分型软件。分析AFLP等指纹图谱电泳结果时,往往要花费大量时间和精力,去统计不同长度谱带在各样本的出现率。GeneMarker只需几个步骤,便可以执行多达1000项,每项包含4~ 5组(不同颜色的荧光物)的DNA测序仪数据,兼容ABI、SCF、MegaBACE等主流格式。统计结果以窗体显示,可直接拷贝到Microsoft Excel作进一步计算。亦可利用内建功能,计算及绘画系统树。
三、生物信息学操作范例
(一)FASTA格式FASTA格式为多个生物信息学网站和分析软件广泛采用。它本身是一个文字文件,可以记载核酸或氨基酸序列数据。
文档由两部分组成,第一行是序列的名称或陈述,以符号 “>”作标示序列的开始,第二行是序列数据。FASTA可存放多于一条序列数据,例如:
>gil289473317lgblGQ435390.1l Litchi chinensis voucher PS1438MT03 psbA-trnH intergenic spacer,complete sequence;chloroplast
GATTTCGATCTTTGTGTATACGAGTTTTTGAAAATAACGGAACAATGCCGATTCTCTTCC
AAGAAGTTGGTATTGCTCCGTTATTTATTAGGTTTTTTCTTCAATTTTTTTATTTAGGTCC
TTGTTTTACTTCAACAAAACAAAAAGTATTTTTATGGCTTTTGATTTAGTATCCTATTATT
ATTATGTGCTAATAATTAAATTTCCCTTTAGTTATTTTGGTTTTACAGTCATATTATTGGT
TTAGAGTCAATTTAATTAAAAAATTATGGAATTTTCTGCCGAATTAAGGTAAGATAAAA
AAAGAATCATCAAAAAAGATGATCAATGGTAGGAATTGCACTCTTTTTTTTGGTAATTTT
GTAGAGAGTAGGGGG
>gil289473318lgblGQ435391.1l Dimocarpus longan voucher PS1439MT01 psbA-trnH intergenic spacer,complete sequence;chloroplast
GATTTCGATCTTTGTGTATACGAGTTTTTGAAAATAACGGAACAATGCCGATTCTCTTCC
AAGAAGTTGGTATTGCTCCGTTATTTATTAGGTTTTTTCTTGAATTTTTTTATTTAGGTCC
TTGTCCTTGTTTTACTTCAACAAAACAAAAAGTATTTTTATGGCTTTTGATTTAGTATCCT
ATTATTATTATGTGCTAATAATTAAATTTCCCTTTAGTTATTTTGGCTTTACAGTCATATT
ATTGGTTTAGAGTCAATTTAATTAAAAAATTATGGAATTTTCTGCCGAATTAAGGTAAG
ATAAAAAAAGAATCATCAAAAAAGATGATCAATGGTAGGAATTGCACTCTTTTTTTTGG
TAATTTTGTAGAGAGTAGGGGG
这个FASTA文档共有两条序列,都是由NCBI的Nucleotide数据库下载。两条序列以符号”>”作起始,然后是该序列的描述,描述内容没有固定格式,使用者可按自己所需给序列命名,最重要的是FASTA档内每条序列名称都是独一无二的。值得注意是ClustalW只会认一组30字符的描述,并且内里不可有空格。如遇上空格,会将空格之后的字符删去并忽略。例如:
>gil289473317lgblGQ435390.1l Litchi chinensis voucher PS1438MT03 psbA-trnH intergenic spacer,complete sequence;chloroplast
ClustalW会将之认成:
>gil289473317lgblGQ435390.1l
(二)序列排序(sequence alignment)是一种比较序列的方法,序列会相互比对,以最接近方式对齐,从而比较两者差异。如果超过2条序列,便是多序列排序(multiple sequence alignment)。例如:
>A
TCAATTTTTTTATTTAGGTCCTTGTTT
>B
TGAATTTTTTTATTTAGGTCCTTGTCCTTGTTT
经ClustalW排序后,会得出以下结果,如图3-1:
图3-1 基因序列A、B排序图
图中第一及第二行分别是经排序后的序列A和序列B。第三行是比较结果,“*”代表各序列在该位置上的碱基是相同的,没有“*”则相反。右面的数字代表该序列的长度。序列B比序列A长6个碱基,所以ClustalW在序列A的中间插入6个“-”符号,表示相对序列B而言,序列A在该区域有6个碱基的缺失(base deletion)。
(三)全域性排序与区域性排序排序可分为全域性排序(global alignment)和区域性排序(local alignment)。全域性排序会将整个序列比对,而区域性排序只会对序列的局部进行比对。
BLAST的搜寻方法便是局部性排序。被检索序列(query sequence)会先被分割成小片段,才跟数据库比对。BLAST之所以采用区域性排序,原因是被检索序列可能经过重组,又或者包含一些蛋白结构区域(Protein domain)。这些特异性区域通常只占整个序列的一小部分。如果以全域性方法去寻找,数据库内某些拥有这种特异性区域的序列,往往因只有一小部分相似,而被排除出搜寻结果,变成漏网之鱼。相反,当要比较特定数目的序列时,全域性排序可充分反映它们整体差异。所以进行DNA鉴定时,应该使用ClustalW作全域性分析。
(四)实际应用操作范例此从鉴定中药材为出发点,示范如何下载DNA条形码或序列,以及操作生物信息软件完成工作。读者可依照书中程序演练,开始前请到http://www.mbio.ncsu.edu/bioedit/bioedit.html下载及安装BioEdit软件到计算机。以下示范将以Microsoft Windows XP为操作系统。
假设某位负责DNA鉴定中药材的研究人员,收到一份声称是人参Panax ginseng C.A.Mayer的粉末样本。但研究员怀疑该样本是人参伪品紫茉莉Mirabilis jalapa L.或土人参Talinum paniculatum(Jacq.)Gaertn。因为从外表难以判断,所以决定采用DNA分子鉴定技术,通过比较标准植物和不知名样本的条形码或序列相似度,加入一个人参属植物三叶人参Panax trifolius L.作外类群,分析样本的真正身份。分析流程分为两部分,首先从数据库下载序列数据,其次是利用软件对数据进行分析比较。
第一步:如何获得标准物数据?
选定NCBI为序列来源,下载人参、三叶参、紫苿莉和土人参的叶绿体mat K基因序列。
1.下载人参序列
(1)连上NCBI的首页(http://www.ncbi.nlm.nih.gov/)。在Search选单上有多个数据库可选择,最常用的是“Nucleotide”和“Taxonomy”。前者收载核酸序列,后者依分类学收载生物资料。
(2)首先选择“Taxonomy”,输入“Panax ginseng”并按“Search”。
(3)页面会出现一条Panax ginseng的超级链接,按下该超级链接。
(4)页面左面Panax ginseng分类学资料(图3-2)。Taxomony数据库内的每个品种都有一个独一的号码(Taxonomy ID),例如Panax ginseng是4054。页面右边显示这个品种在各个NCBI数据库相关数据的数目,例子中Nucleotide数据库有422项数据(这是编写时所显示的序列数目,跟读者所见的数字可能有出入)。
图3-2 在Taxonomy Browser中显示人参的各类数据
包括:①品种名称;②Taxonomy ID;③分类;④在NCBI的各个数据库内,收载了该品种数据的数量
1)按下Nucleotide数据库的超级链接,在新页面会显示Panax ginseng所有DNA序列数据。
2)网站会显示第1至第20个序列数据,而最多可显示200项。点击“Display Settings”,在“Items per page”选“200”后按“Apply”(图3-3)。
3)比如利用浏览器搜寻编号HQ113054的序列。在Nucleotide数据库内,每项序列数据都有其独一无二的编号(Accession number)。接着按下链接。
4)页面会显示HQ113054这序列的详尽资料,包括序列的描述、生物分类、参考文献、作者、以及序列本身。可知HQ113054序列是叶绿体mat K基因,来源生物是Panax ginseng,序列由Zuo等人所测,文章于2011年在《Planta Medica》期刊发表。
5)按下“FASTA”链接,新页面会变为FASTA格式。
图3-3 Nucleotide页面显示DNA序列数据
在①“Display Settings”项可选择多种显示形式。例如②设定成摘要(Summary)或FASTA文字(FASTA text),③更改序列在每页所显示的数目
6)按下页面右边的“Send”链接(图3-4),点选“File”。在Format栏中选择“FASTA”,按下“Create File”按钮。在档名栏中输入“MyFirstSequence”,并储存到Windows的桌面上。
图3-4 Nucleotide页面显示DNA序列数据
在①“Send”项可选择多种序列下载形式。例如②将序列储存成档案(File)或暂存到计算机内存(Clipboard),③更改序列下载格式
2.下载三叶人参序列
1)下载前先开启MyFirstSequence。如果计算机内已安装BioEdit,将鼠标移至MyFirstSequence档案之上按下右键,在“开启档案”选择“WordPad”。
2)重复上面下载人参数据中的第1)至6)步骤。而在“Taxonomy”的字段中输入“Panax trifolius”。
3)利用浏览器搜寻编号HQ113084序列,在该序列之下有一个链接“FASTA”,用鼠标点该链接。
4)用鼠标左键将序列(必须由“>”符号开始)选上,然后按下鼠标右键拉出选单,选择“复制”将序列暂存到计算机内,然后贴到已开启的MyFirstSequence档案中HQ113054序列之下,然后储存档案。
3.下载紫茉莉和土人参序列
1)重新连上NCBI的首页(http://www.ncbi.nlm.nih.gov/)。在Search选单上选“All Databases”,在字段内输入“Mirabilis jalapa or Talinum paniculatum”。NCBI会在所有的数据库中,寻找有关“Mirabilis jalapa”或“Talinum paniculatum”的全部记录。在Taxonomy数据库显示有2笔记录,现在按下链接。
2)在新页面上显示这两个品种的链接。在“Display”下拉选单中选择“Nucleotide Links”。新页面会显示这两个品种的所有DNA序列。
3)点击“Display Settings”,在“Items per page”点选“200”后按“Apply”。
4)利用浏览器搜寻编号GQ434150序列,并在该序列前的空格按一下,用作点选该项资料。利用相同方法找出编号AY042614序列并点选。
5)按“Display Settings”,点选“FASTA(text)”,然后按“Apply”按钮。
6)用鼠标将两条序列复制并粘贴到MyFirstSequence档案中,储存档案。
第二步:计算标准物的分辨率
虽然我们已下载了人参和其伪品的DNA序列(条形码),但序列间如无差异,便不能以之作鉴定。所以我们要比较它们之间的相似度。以下我们会利用EMBL的ClustalW和BioEdit作序列排序和分析。
1.利用ClustalW进行多序列排序
1)连上EMBL-EBI内ClustalW的网页(http://www.ebi.ac.uk/Tools/msa/clustalw2/)。
2)开启MyFirstSequence,将所有序列复制,然后粘贴到ClustalW“STEP 1 - Enter your input sequences”方块中的文字框内,在下拉选单中选择“DNA”(图3-5)。
3)在“STEP 3-Set your Multiple Sequence Alignment Options”的方块中,按“More Options...”按钮,然后在“Output Options”的“ORDER”下拉选单选择“input”。使用者可调整其他参数以优化分析程序。
4)按下“STEP 4-Submit your job”方块中的“Submit”按钮。
5)ClustalW已按指示将4个序列排好,但每个序列的名称只有NCBI的Accession number,没有显示品种名称,较为不便。
6)为了更方便显示,我们可修改MyFirstSequence内序列的名称。方法是将品种名称和Accession number放在最前。首先以Wordpad开启MyFirstSequence。
7)以人参序列HQ113054为例,原始档是:
>gil306755258lgblHQ113054.1l Panax ginseng isolate GS002_JL maturase(matK)gene,partial cds;chloroplast
图3-5 ClustalW在线多序列排序程序
操作时,先①确认序列属于核酸还是蛋白质,然后将序列粘贴到②文字框内,并按所需设定③各项参数,最后按④Submit按钮即可
只保留品种名称和Accession number,注意ClustalW会将空格后的字符删去,所以它们之间不得留有空格,品种名称以“_”符号连接。将描述改为:
>Panax_ginsenglHQ113054.1
8)依样将其余序列修改,然后储存。
9)重复步骤2)至4),这次会清楚显示品种名称和Accession number。
10)检查品种间排序结果是否存在差异。
11)接着查看其他分析结果。“ClustalW2 Results”下点选“Result Summary”,会显示序列间的相似度。点选“Guide Tree”会显示系统进化树。
2.利用BioEdit进行多序列排序及计算相似度
1)启动BioEdit,在菜单选“File ->Open”,开启MyFirstSequence。
2)在菜单选“Accessory Application ->ClustalW Multiple alignment”,在对话框上按“Run ClustalW”按钮。
3)在菜单选“View ->Conservation plot”,将相同的碱基变成“.”,方便找出不同之处。
4)检查排序结果,发现序列两端并非对齐(图3-6)。在开首部分,T.paniculatum和M.jalapa比两个Panax属品种多出11个碱基。在计算相似度前,应将这些多余序列删去,否则影响结果。
图3-6 人参和其伪品经BioEdit处理后的排序结果
5)BioEdit在预设“Select/Slide”模式下,是不能修改排序结果的。在“Mode”下拉选单选择“Edit”模式(图3-6),现在可进行调整。
6)用鼠标在第11个碱基的位置按下(图3-6),然后在菜单选“Edit ->Select to Beginning”,之后按键盘上的“Delete”键将开首多余序列删去。
7)用鼠标在第813个碱基的位置按下,然后在菜单选“Edit ->Select to End”,同样按“Delete”删去多余序列。
8)序列微调完成,先储存排序结果。在菜单选“File ->Save as”,在对话框中输入文件名“MyFirstAlignment”,然后按“储存”。
9)接着计算各样本间的序列相似度,在菜单选“Alignment ->Sequence Identity Matrix”,在对话框中输入文件名“MyFirstIdentityMatrix”,然后按“储存”。
10)启动Microsoft Excel,在菜单上选“档案 ->开启”旧档。在对话框中的档案类型,选择“所有档案”。因为Excel内的默认格式没有MyFirstIdentityMatrix的档案类型,所以无法显示。选择后按“开启”钮。
11)Excel会尝试将MyFirstIdentityMatrix转换成Excel格式(xls),在“汇入字符串精灵”对话框选择“完成”。
12)在Excel内显示序列间相似度的数组,每条序列都会跟其余的比较,例如P.ginseng跟P.trifolius、T.paniculatum和M.jalapa的相似度分别是0.986、0.815及0.795。
第三步:判断标准物的分辨率
经过一连串的操作程序,我们已从NCBI下载了人参及其伪品的mat K基因序列。经分析后,得知人参跟2个伪品的相似度只有0.8左右。而在分类学上较接近的同属植物人参和三叶人参,它们之间的相似度是0.986,数值比伪品高。分析结果吻合传统分类学,所以该研究人员决定采用mat K序列作鉴定条形码。
第四步:鉴定不知名样本
研究人员对不知名样本进行测序后,得出以下序列[以下序列其实是NCBI内另一条人参mat K序列(GQ434264),请依照上述程序下载成FASTA格式]:
>unknown_sample
GGTTTAGAGATACTAATACCCTACCCAGTCCATCTGGAAATCTTGGTTCAAACTCTTCGC
TACTGGGTAAAAGATGCTTCTTCTTTGCATTTATTACGATTCTTTCTCCACGAGTATTGTA
ATTGGAATACTCCAAATAAAGCCGGTTCTTCTTTTTCAAAAAGAAATCAAAGACTATTC
TTCTTACTATATAATTCTCATCTATGTGAATACGAATCCATCTTCATCTTTCTCCGTAACC
AATCTTCTCATTTACGCTCAACATCTTCTGGAACCCTTCTTGAACGAATCTATTTCTATGG
AAAAATAAAATATCTTGTAAAAGTCTTTGTTAAGGCTTTTCAAGTCAATCTATTGTTGTT
GAAGGATCCTTTCATGCATTATGTTAGGTATCAAGGAAAATCAATTCTCGCTTCAAAAG
GGACGCCCTTTTTGATGAAAAAATGGACATATTACTTTGTTAATTTATGGCAATGTCAT
TTTTACCTGTGGTCTCAACCGGGAAGGATCTGTATAAACCAATTATACAATCATTCCCT
CGACATTCTGGGCTATCTATCAAGTGCGCGGCTAAACCCTTCAATGGTACGCGGTCAAA
TGCTAGAAAATTCATTTCTAATTGATAATGCTATTAATAAGTTCGATGCTATTGTTCCAA
TTATTCCTCTGATTGGATCATTGGCTAAAGCGAAATTTTGTAACGTATTGGGGCATCCTA
TTAGTAAGGCGGTTTGGACCGATTTATCAGATTCTGATATTATTGACCAATTTGGGCGTA
TATGCAGAAATCTTTCTCATTATCATAGTGGATCCTCAC
研究人员将不知名样本的序列加入MyFirstAlignment内,跟档案中的标准序列比较,查看跟哪一个最相似,从而找出不知名样本的真正身份。
1)重新启动BioEdit,开启MyFirstAlignment档案。
2)在菜单选“Sequence ->New sequence”。
3)在新的对话框中,在“Name”一栏填上“Unknown_sample”,在“Sequence Type”下拉选单选择“DNA”,然后将Unknown sample序列贴到文字框内(小心不要将“>Unknown_sample”这个序列名称贴进文字框),最后按“Apply and Close”按钮。Unknown_sample序列已加到MyFirstAlignment档。
4)执行“Accessory Application ->ClustalW Multiple alignment”。
5)排序后,将头尾两端多出的序列删去。
6)检视排序结果,Unknown_sample和人参序列HQ113054相同。
7)执行“Alignment ->Sequence Identity Matrix”,文件名称一栏输入“MySecondIdentityMatrix”。
8)在Excel内开启MySecondIdentityMatrix。查看Unknown_sample序列和哪一个标准品是相同的。最后发现和人参一致,即代表该样本确实是人参,并非伪品。
值得注意的是,本范例目的是示范如何利用生物信息学工具下载及分析公开数据库里的序列。某些公开数据库内的序列,难以考证其生物来源的正确与否,并不能单以此作为鉴定依据。如有怀疑,应先收集可靠的相关标本,然后对标本及不知名样本,同时进行测序,所得序列及其相似度方可作为鉴定证据。