上QQ阅读APP看书,第一时间看更新
第三节 药物基因组学研究相关软件
一、序列比对软件BLAST
BLAST由NCBI开发,是一种基于动态规划和启发式算法的局部序列相似性比对程序。所处理的序列包括核苷酸和蛋白质序列,用于比对的数据库可以是一个也可以是多个。BLAST比对强调局部而非全局。用于全局的比对算法要求两条序列的全部片段均相似,而局部比对要求两条序列不一定全部相似,只要两条序列中有相似的部分就可以产生结果。除了可以进行网络版BLAST的访问(http://blast.ncbi.nlm.nih.gov/Blast.cgi),NCBI网站还提供单机版的BLAST程序免费下载(ftp://ftp.ncbi.nlm.nih.gov/blast/executables/ LATEST)。网络版的BLAST操作简单、数据齐全,但检测通量低;单机版的BLAST通量高,可同时对多条序列进行比对,但是安装麻烦,操作繁琐,需要有一定生物信息学基础才能使用。
利用BLAST,把一条DNA序列和另一条DNA、蛋白质序列或者数据库进行比对,能够快速返回带有图表和统计量的结果集。该结果中有2个重要的参数:得分值(score,S)和期望值(expectation,E)。S值:使用打分矩阵对匹配的片段进行打分,对各对碱基(或氨基酸残基)打分求和获得结果值。一般来说,匹配片段越长、相似性越高、S值越大。另外,为了使不同输出结果具有可比性,S值要经过标准化。E值:是对上述S值可信度的评估,表示由于随机性造成获得这一比对结果可能的次数。E值默认值一般是10,这表示比对结果中将有10个匹配序列是随机产生,如果结果序列的E值小于10,则显示结果。采用较低的E值将使搜索比对更加严格,结果中随机产生的匹配序列减少但检出率会大大下降,并有可能漏掉目标序列。
BLAST可以和两种序列类型的数据库进行比对,分别是核苷酸数据库和蛋白质数据库。NCBI提供的BLAST默认比对核酸数据库是nr/nt,该数据库包括了NCBI中RefSeq序列以及GenBank(EST、GSS、STS和HTG除外)中的序列,其他可供比对数据库还有human/mouse genomic+transcript等;用于蛋白质序列比对的默认数据库是非冗余数据库nr,包含来自RefSeq、UniProtKB/ Swiss-Prot、PDB、Protein Research Foundation(PRF)以及GenBank数据库中所有CDS序列,其他可供比对数据库还包括nr数据库下的子数据库以及一些专利数据库和环境样品数据库等。
NCBI根据不同比对目的开发了各种 BLAST算法。如 Blastn、Blastp、Blastx、Tblastn、Tblastx、MegaBLAST、Discontiguous MegaBLAST等(前五种的算法说明见表3-1)。MegaBLAST是NCBI基因组BLAST页面下的默认搜索算法,是一个基于BLAST但具有更高精度的搜索比对工具,主要在网络上对大批量核苷酸进行查询,而且查询速度是标准BLAST的10倍多。Discontiguous MegaBLAST适用于跨物种核苷酸序列查询,使用非连续词条匹配算法(noncontiguousword match)进行比对。
BLAST提供若干种输出格式,如默认的配对序列式、查询锚定式(queryanchored)式和带有表格式的结果表(hit table)等。
表3-1 BLAST算法
二、统计分析软件PLINK
PLINK是一款广泛应用的免费、开源的遗传关联分析工具集,由美国哈佛大学开发,旨在用有效的计算方式进行常规的及大规模的遗传分析。目前最新的版本为1.90,可在Windows、Linux和OS X等多种系统下运行,其软件下载地址为http://www.cog-genomics.org/plink2/。PLINK的分析功能强大,可进行数据处理和统计描述、关联分析、频率检测、哈迪温伯格检验、多重检验校正及基因交互作用分析等。本部分将简要介绍PLINK的一些基本操作。这里以Windows版的PLINK为例。
下载PLINK安装包后,解压后即可使用。例如解压至D:\PLINK文件夹。Window版PLINK需通过DOS运行。通过cmd进入DOS后需首先进入PLINK程序所在文件夹下。操作命令如下:①输入“D:”,然后回车进入D盘(命令不包括引号);②输入“cd D:\PLINK”然后回车进入PLINK文件夹(命令不包括引号)。
开始分析前,需首先准备PLINK的两个输入文件,它们为PED和MAP文件,分别以.ped和.map作为后缀。PED文件存储样本、表型和基因型信息,每一行代表一个样本描述。PED文件的前六列用于描述样本信息,六列分别为样本的家系ID、样本ID、父亲ID、母亲ID、性别和表型。六列以后,每两列对应一个SNP位点的两个等位。除表型以外,如出现缺失值应当用0代替,若表型有缺失则用-9代替。样本性别需用1和2代表,1为男性,2为女性。如果研究为病例对照研究,表型同样需要使用1和2表示,1为对照,2为病例。MAP文件存储SNP的信息,每一行是一个SNP的染色体定位。MAP文件包含4列,分别对应SNP所在染色体、SNP名称、SNP遗传距离和SNP物理位置,缺失时也用0代替。MAP文件和PED文件是相互关联的,MAP文件第一行的SNP对应PED文件的第六、第七列。例如,假设PED文件第一行为样本1,MAP文件第一行为rs4961,那么样本1的rs4961的基因型位于PED文件的第一行的第六和第七列。依此类推可将多有样本的基因型进行对应。
Plink的基本输入语法格式为:
PLINK的命令可以是单个命令也可以是符合规则的连续多个命令。表3-2列出采用PLINK进行关联分析中常用的一些命令。
表3-2 PLINK常用参数列表
这里以病例-对照研究的关联分析为例介绍PLINK的操作。对于病例-对照研究,PLINK提供3种统计分析方法进行分析,包括卡方检验、Fisher检验和逻辑回归。此外,PLINK可根据基因遗传模式提供四种模型的分析结果。四种模型分别是等位基因模型、线性模型、隐性模型和加性模型,四种模型的解释如表3-3所示。
表3-3 PLINK常用参数列表
在病例-对照研究中进行关联分析采用以下命令:
其中mydata为用户所准备的PED和MAP文件的文件名(注PED和MAP文件名应当相同),--assoc为关联分析命令,可用来对数百万或数千万的SNP开展关联分析。默认的统计分析方法为卡方检验,如果需要使用Fisher检验或逻辑回归可将命令分别替换为--fisher或--logistic。
在进行遗传学关联分析前,我们需对SNP进行质量控制,去除突变频率较小以及不符合哈迪温伯格检验的样本。PLINK提供--maf和--hwe命令用于SNP质控。关联分析命令可修改如下:
通过这个命令串,我们可以去除等位基因频率小于0.05、哈迪温伯格检验 P小于0.001的SNP位点后再进行关联分析。如果需要输出比值比(OR)的95%可信区间可在--assoc命令后加上--ci0.95。
完成分析后,PLINK会在PLINK软件所在文件夹生成plink.assoc的结果文件。可使用Excel软件打开。打开以后结果文件包含11列,显示如下信息:①SNP所在染色体;②SNP名称;③SNP的物理位置;④次等位基因;⑤在病例组中的次等位基因频率;⑥在对照组中的次等位基因频率;⑦主等位基因;⑧卡方值;⑨P值;⑩比值比;⑪标准误。
为了保存不同批次分析的结果,PLINK也可以使用--out<文件名>命令自定义结果输出文件的文件名。例如在--assoc后加上命令--out test,则最后分析的结果保存至test.assoc文件中。
PLINK关联分析默认采用的模型是等位基因模型,如果需要采用其他模型需将--assoc命令进行替换。输入--model将进行所有模型的分析,输出的结果存储于plink.model中。其他单个模型分析的命令如下:--dominant显性模型分析;--recessive隐性模型分析;--genotypic加性模型分析。