第五节序列分析_分子流行病学和分子进化流行病学-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

第五节　序列分析

一、核酸序列测定

各种生物、病原体乃至人体的遗传信息，基因型别，序列变异，均可通过测定其基因序列来鉴定。这是目前检测核酸结构及其变化最可靠的方法，虽然此法比较繁杂和耗时，但是为分子生物学常用的方法之一。同时，由于不断地改进，测序的操作步骤也在日益简化。

序列测定的种类

序列测定的方法较多且新的方法仍在不断出现，但目前最常用的两种快速测定技术是Sanger等提出的酶法及Maxam和Gilbert提出的化学降解法。虽然其原理不同，但其基本方法都是生成互相独立的若干组带放射性标记的寡核苷酸，每组寡核苷酸都有固定的起点，但却随机终止于特定的一种或者更多种残基上。由于DNA上每一个碱基出现在可变终止端的机会均等，因此上述每一组产物都是一些寡核苷酸的混合物，这些寡核苷酸的长度由某一种特定碱基在原DNA片段上的位置所决定。然后在可以区分长度仅差一个核苷酸的不同DNA分子的条件下，对各组寡核苷酸进行电泳分析，只要把几组寡核苷酸加样于测序凝胶中若干个相邻的泳道上，即可从凝胶的放射自显影片上直接读出DNA上的核苷酸顺序。

1.Sanger双脱氧链终止法

在该法中以双脱氧核苷三磷酸（ddNTP）作为链终止剂，2′，3′-ddNTP与普通dNTP不同之处在于它们在脱氧核糖3′位置缺少一个羟基。它们可以在DNA聚合酶作用下通过其5′三磷酸基团掺入到正在增长的DNA链中，但由于没有3′羟基，它们不能同后续的dNTP形成磷酸二酯键，因此正在增长的DNA链不可能继续延伸。这样，在DNA合成反应混合物4种普通dNTP中加入少量的一种ddNTP后，链延伸将与偶然发生但却十分特异的链终止展开竞争，反应产物是一系列的核苷酸，其长度取决于从用以起始DNA合成的引物末端到出现过早链终止的位置之间的距离。在4组独立的酶反应中分别采用4种不同的ddNTP，结果将产生4组寡核苷酸，它们将分别终止于模板的每一个A、每一个C、每一个G或每一个T的位置上。

2.Maxam-Gilbert化学降解法

Maxam-Gilbert化学降解法是对原DNA进行化学降解，在此法中，一个末端标记的DNA片段4组互相独立的化学反应中分别得到部分降解，其中每一组反应特异地针对某一种或某一类碱基。因此生成4组放射性标记的分子，从共同起点（放射性标记末端）延续到发生化学降解的位点。每组混合物中均含有长短不一的DNA分子，其长度取决于该组反应所针对的碱基在原DNA全片段上的位置。此后，各组均通过聚丙烯酰胺凝胶电泳进行分离，再通过放射自显影来检测末端标记的分子。此法的成败取决于降解反应的特异性。第一步先对特定碱基（或特定类型的碱基）进行化学修饰，第二步修饰碱基从糖环上脱落，修饰碱基5′和3′的磷酸二酯键断裂。在每种情况下，这些反应都要在精心设计的条件下进行，以确保每一个DNA分子平均只有一个靶碱基被修饰。随后用哌啶裂解修饰碱基的5′和3′位置，得到一组长度从一到数百个核苷酸不等的末端标记的DNA分子。比较G、A+G、C+T和C各个泳道，可从测序凝胶的放射自显影片上读出DNA序列。由于种种原因，该法所能测定的长度要比Sanger法短一些，它对放射性标记末端250个核苷酸以内的DNA序列效果最佳。

比较而言，Maxam-Gilbert化学降解法虽然能直接测定原DNA分子及用于分析诸如甲基化等DNA修饰的情况，但由于Sanger法简便快速，是目前应用较为广泛的方法。本章节也重点讲述Sanger测序法的有关问题。

二、蛋白质与核酸序列的计算机分析基础

如前所述，病原体的鉴定及流行趋势的确定很大程度上依赖于对相关病原体核酸和蛋白质序列的测定结果，但仅知道所测定的序列是不够的，需要将所测定序列与目前已知的序列进行同源性比较，以确定所检测株序列与某种已知序列的相似性，从而确定其生物型的归属、变异和病原体流行的方向。

（一）序列数据库

随着分子生物学的发展，有越来越多的基因序列和蛋白质序列被发现，而每天仍然有大量的新序列被确定。在我们日常研究中，当检测到一个序列时，需要立即与已知的其他序列进行比较，以确定这个序列是否是新序列，它与其他序列的相关性如何等问题。这就需要有一个将所有已知核酸和蛋白质序列集中保存的地方——序列数据库。目前已有多家国际性的序列数据库可供使用。EMBL：内容为核酸序列，开发者为欧洲分子生物学实验室，发行方式为网络和CD-ROM。地址为：EMBL Data Library, European Molecular Biology Laboratory, Meyerhofstrasse 1，W-66900 Heidrlberg, Germany, E-mail：datalib@embl-heidelberg.de Entrez：Sequences：内容为核酸序列和蛋白质序列及分子序列文献（MEDLINE），开发者为美国国立卫生研究院，发行方式为网络和CD-ROM，通讯地址同Genbank。

Genbank：内容为核苷酸序列，开发者为美国国立卫生研究院，发行方式为网络和CD-ROM。地址为：National Center for Biotechnology Information, National Library Medic ine, National Institute of Health，86600Rockville Pike, Bethesda, MD 20894，USA, Email：info@ncbi.nlm.nih.gov

序列数据管理提供给用户的信息一般由一个或多个文本文件组成。一个序列的记录可分为两部分。前者分成不同的项，由关键词或关键词的英文缩写组成（如在EMBL格式中：ID：序列的数据库标识符；AC：特定序列的存取号；OC：特定序列的来源等）。序列部分就是指核苷酸或氨基酸的实际排列顺序。核苷酸除标准的A, C, G, T（或U）外，N表示任何一种核苷酸，R表示A或G, Y表示C或T。

氨基酸的连接顺序是按照DNA转录到RNA上的密码子的编码顺序进行的，为了有效利用计算机的存储空间和方便分析计算，蛋白质序列不再使用传统的三个字母的表示方法，而改用标准的单个英文字母表示，如B被用于表示Asp和Asn, Z表示Glu或Gln, X表示任何一种氨基酸，而J, O和U不被使用。EMBL和GenBank的格式都以“//”表示一个序列记录的结束。

（二）序列对数据库的类似性检索

当测定出一个新的核酸或蛋白质的序列时，首先要做的就是分析它或与之相似的序列是否已有文献报道。这可通过检索核酸或蛋白质序列数据库作出快速判断。通常数据库检索的目的不在于搜索完全匹配的序列，而是为了发现库中的某个序列或它的一部分与被检索序列相关或同源（homology），显然这就需要将被检序列与库中的每个序列作类似性比较。随着序列数据库的迅速扩大，可望检出更多的序列类似性关系。短序列的类似性检索有时能指导进一步的实验设计，或有助于对实验结果的分析。

Winlbur和Lipman提出一种基于预置“K-tuples”值加快检索速度的算法。所谓K-tuple，是k-in-a-row的一个想象的描述，K-tuple是小的正整数，常数取1～6。K-tuple=2表示两个序列有连续2个相同的残基，K-tuple=3表示它们有连续3个相同的残基，如此等等。该算法的思想是先对被检序列与库中的序列作K-tuple匹配处理，满足一定积分条件的序列留下来，进一步进行序列对准比较并考虑氨基酸匹配的记分权值。目前普遍使用K-tuple匹配分析（FASTP/FASTA程序）和BLAST程序。在这些程序中，K-tuple由用户自己给定，一般来说，对于蛋白质序列检索，K-tuple置为2，对于核酸序列检索，K-tuple置为6。对于检出的类似性较大（如对于平均长度的大蛋白质，其残基相同率在30%以上）的序列匹配，则序列同源是明显的，对于检出的类似性较小的序列匹配，其意义较难确定，一般要进行统计概率的分析，并结合序列的生物学意义作出综合判断。

（三）序列比较与同源性

考察序列对数据库作类似性检索的结果，大致可分为如下的几种情形：①该序列与库中的某个序列完全匹配。说明它们是同一种蛋白质或DNA，就测序本身而言，这是最坏的结果。②该序列与某些令人感兴趣的序列（如癌基因或生长因子，细胞因子等）有明显的相似，这是最好的结果。③该序列与某个具有一般性质的序列（如细胞色素c，核糖核苷酸酶）明显相似。这是较好的结果。④该序列与某个序列微弱相似，如两个序列残基相同率在15%～25%之间，这种情况较为常见并且结果多半不妙。⑤该序列与库中的所有序列无任何相似。但在认定自己发现了一个新的序列之前，应注意两点：测序过程是否有误和检索的数据库是否为最新。

在多数情况下，数据库检索所得的积分较高的序列是否真正与被检序列相关，需进一步将被检序列与候选序列作全面的双重对准比较（pairwise alignment）和统计学显著性（significance）检索。

应注意序列的“同源（homology, homologous）”与“类似（similarity, similar）”之间的概念区分。当讲两个序列是“同源”时，是指它们具有共同的祖先。在这个意义上便无所谓同源的程度之分，序列要不是同源的要不就是非同源的。“类似”不同于“同源”，类似性高的两个序列是指两者彼此很相似，但它们可能是不同源的，而是“趋同”（convergence）进化现象。

有许多数学统计方法及其实现程序来评价序列比较的显著性意义。但有时可用一些经验规则来评价，Doolottle提出以下两条经验法则：如果两条序列都>100个残基，在适当地加入空位之后，它们配对的相同率达到25%以上，则两个序列确实相关（即同源）；如果配对的相同率小于15%，则不管两个序列的长度如何，它们都不可能相关；如果两个序列的相同率在15%～25%之间，它们很可能相关，可通过特别的公式计算标准化的对准积分（normalized alignment score, NAS）。一般说来，NAS>200相当于两个序列经调整后的残基相同率达20%，通常说明它们真正相关；当NAS在140～200之间时取决于被比较的两个序列的长度，如果它们都超过200个残基，则两个序列类似的意义是显著的；若NAS<140，则除非有其他方面较强的证据，才能断定这两个序列比较的显著性。

（四）蛋白质家族与分子进化

蛋白质家族和超家族：一个新测定的序列经过数据库检索和序列比较等步骤确定它与另一个序列确实相关，它们便属于同一个蛋白质家族。Dayhoff根据蛋白质序列的类似程度将同源蛋白质分成不同层次的组别，即超家族、家族、亚家族和每个序列记录。

近来越来越多的发现表明一个序列可能被指定为一个以上的蛋白质家族，而蛋白质之间的相似性可能只局限于某个序列区域或结构域。因此现在蛋白质超家族的概念发展为具有某种共同结构域的所有分子组成的分子集合。一个蛋白质不但可以属于不同的家族，还可能属于不同的超家族。

核酸和蛋白质的序列分析对于从分子水平研究物种进化提供了新的手段。虽然不同功能的蛋白质的进化速率可能相差很大，但是同一个家族蛋白质的进化速率是近乎恒定的，提示“分子进化钟”的存在。对于进化上改变较慢的蛋白质，一方面可以比较容易地从大量分歧的生物物种中认识它，另一方面不同种属可以变换的氨基酸残基数目与这些种属在系统发生上的位置有密切关系，即在进化位置上相距愈远，其氨基酸序列的差异愈大。对这类蛋白质的序列分析资料已被用来核对各个物种之间的分类学关系，以及绘制详细的系统发生树或分子进化树。

构建进化树的方法有两种，一种是序列类似性比较，主要是基于Dayhoff氨基酸相对突变率矩阵计算不同序列差异性积分作为它们的差异性量度（序列进化树）。另一种是结构比较，包含刚体结构叠合和多结构特征比较等方法。前者用比较后确定的拓扑等价位点的个数或等价位点C _α原子距离的均方根值作为不同结构间差异的量度（结构进化树）；后者用蛋白质结构的多项特征如残基的物理特性，残基的空间倾向性，主侧链的方向，主链的二面角，二级结构类型和主链的可接近性综合指标作为结构的差异性量度，有时称此方法构建的结构进化树为“类结构”进化树。序列进化树和结构进化树的拓扑形总的来说是一致的。由于蛋白质结构常常比序列更加保守，因此对序列分歧较大的蛋白质，序列比较已不能发现它们的相关性时，仍可进行结构比较而构建结构进化树。刚体结构叠合所确定的拓扑等价区域可作为蛋白质结构的公共骨架，常用于同源蛋白质结构模型的构建和分子设计。通过构建进化树，可以清楚地发现病原体流行的方向性。

下面是一例采用分子生物学方法确证经针刺意外而传播HCV的典型事例。作者应用克隆、序列分析、核苷酸替代位点估算、生物遗传树分析和核苷酸序列多样性等方法证实了HCV经针刺意外传播的过程。先后有三对HCV感染病例。第一例供体病人（A ₁）是一名24岁的因输血而感染HCV的贫血病人（HCV RNA和HCV抗体均为阳性），被感染者（A ₂）为一名24岁的女护士，她在给病人抽血时被针头刺伤左手手指，2个月后患急性肝炎并发展成慢性肝炎。第二名供体病人（B ₁）是一名59岁的HCV抗体和HCV RNA阳性的肝癌合并肝硬化的病人，一名35岁的医师（B ₂）因意外被病人用过的注射器扎伤左臀部，2个月后肝功生化化验呈异常。第三例病例供体（C ₁）是一名HCV抗体和HCV RNA均为阳性的68岁的肝硬化伴肝癌的病人，一名43岁的护士（C ₂）在给病人放置静脉导管时被针头扎伤手掌，2个月后出现肝炎并随后转为肝硬化。作者自病人和感染者血样中采用反转录PCR方法首先扩增了HCV的E2区并进行了序列分析和比较。选用HCV E2区是因为此区在HCV基因组中属高变异区，若病人和感染者此段序列相似，可能强烈暗示他们之间有传播。其扩增区位于是105～1 524核苷酸间，所使用引物序列为：外引物：①5′CAGYTRCTCCGGATCCCACAAGC3′（Y=C和T的混合物，R=A和G的混合物）；②5′ACGTCCGTCTCATTYKCVCCCCA3′（K=G和T的混合物，V=A和C的混合物）。内引物：①5′TCTGGATCCTATTCCATGGTGGGGAACTGG3′（带有一个 BamHⅠ位点序列）；②5′AATGAATTCTACAACAGGGCTKGGRGTGAA3′（带有一个 EcoRⅠ位点序列）。PCR产物经酶切后黏端连接到pGEM-3zf（+）载体中，双脱氧终止法测序。对所测序列与在基因库中的其他序列进行了比较并对所克隆序列变异性进行了分析，用6参数（six-parameter method）方法分析了该区域每碱基的核苷酸替代数，采用邻接方法（neighbor-joining method）建立了HCV E2区的种系发生树（phylogenetic tree），为了进一步证实种系发生树的可信性，还进行了统计分析。上述分析都是采用NIG（National Institute of Genetics）的ODEN程序分析完成的。共自病人和感染者中克隆了38个HCV cDNA，种系发生树分析显示这六个人HCV的基因型为在日本最常见的HCV 1b型。此外，每一对供体-受体都显示它们有极为相近的进化距离，统计分析证实其每对病人-感染者之间的对应性。核苷酸变异性分析显示供体的变异性高于受体（A ₁为0.077 552，A ₂为0.011 29，B ₁为0.049 50，B ₂为0.010 46，C ₁为0.055 96，C ₂为0.049 50），这进一步说明HCV从供者到受者的传播方向。这种方法对于研究高危人群中高突变率病毒的传播有独特的优势。

通过对测定基因进行计算机分析，有利于快速发现新的基因型。Kondo等采用反转录PCR方法检测了112个肝病和121供血者样品中的GBV-C/HGV（25），所有阳性样本的基因序列均被测定。10.7%（25/233）的被检样品为GBV-C/HGV阳性。同时检测了HBV和HCV。HCV在GBV-C/HGV阳性和阴性患者中的流行率无差别，而HBsAg在GBV-C/HGV RNA阳性病人中的流行明显高于阴性患者。分子进化树分析表明GBV-C/HGV病毒是一种异质性病毒，它们基本可分成两种型别，一种类似于已报道的HGV，另一种是与GBV-C和HGV有所区别的新型病毒。

对病原体进行基因分析并确定出新的分型方法对于分子流行病学研究具有十分重要的意义。31例中美洲HBV基因型分别属于A, C, D和F。Arauz-Ruiz等将其S区与已经发表的104例S区序列进行比较。根据S区编码序列，21个F基因型为adw4，一例属于ayw4。F型中依据残基45有无替换可分为三类，18例中美洲和1例阿拉斯加病人分离株含有Thr45；2例美洲病人和6株自南美和欧洲分离株含有Leu45；第三类主要是尼加拉瓜病例，含有Pro45。这些结果提示HBV型别的差异可能反映了当地的社会和经济水平。

三、基因工程

基因工程又称为DNA重组技术（recombinant DNA），其基本过程包括：将分离纯化或人工合成的目的DNA（基因）在体外与载体DNA连接成重组体，并以此重组体转化宿主细胞（细菌或其他细胞），筛选出能表达重组DNA的活宿主细胞并进行繁殖和扩增，表达出目的基因所编码的多肽，此一系列过程类似一个连续的和复杂的工程，故将其称为基因工程（genetic engineering），有时又被称为基因克隆（gene cloning）或分子克隆（molecular cloning）。基因工程在获得生物活性蛋白，分离鉴定病原体基因，制备探针和基因片段，研究基因结构和功能，以及研制疫苗等方面都具有十分重要的意义。

（一）目的基因

目前获得目的基因的方法大致有以下三种。①人工合成法：这是获得分子较小的基因的一种方法，目前已成功地合成了人生长激素释放因子、干扰素和胰岛素等基因。人工合成法一定要知道目的基因的序列，所合成序列一般限长50～60核苷酸。②反转录法：利用大多数真核细胞或某些病毒的mRNA含有poly（A）尾链的特点，可用寡聚脱氧核糖胸苷酸纤维素柱层析纯化，在有短的引物存在下，由反转录酶催化合成一条与mRNA互补的单链DNA, mRNA模板可用碱或RNase H水解，反转录后生成的3′端自动反折回来，成为一个短的发夹，并以此作为主链生成双链cDNA的引物，最后经用内切核酸酶S1将发夹切除，获得平端的ds-cDNA。③用限制性核酸内切酶直接分离DNA：对于结构已经较为清楚的目的基因，可用限制性核酸内切酶直接把目的基因取出来。对于一些已经被成功克隆的目的基因，也可采取限制性核酸内切酶酶切质粒的方法，经电泳分离纯化得到目的基因。

（二）克隆载体

常用的克隆载体是由质粒、噬菌体和病毒等经修饰构成的。载体应具有以下基本特征：外源基因插入位点；阳性克隆筛选标志（如抗性基因等）；质粒（或病毒）DNA本身的基本序列。目前可供选用的载体种类很多，如pUC系列、M13、pBV220和λgt系列等，可根据需要选用真核或原核表达载体。

（三）DNA分子的体外重组

先用合适的限制性核酸内切酶处理载体DNA，再用相同的酶切割目的基因或在目的基因的两端加上相应的限制性酶接头并酶切处理，在连接酶存在下，目的基因即可被插入到载体DNA上相应的酶切位点中，构成所谓的重组质粒。若片段两端的酶切位点是相同的，则目的基因可以任一方向插入，即非定向克隆；若片段两端的限制性内切酶序列不同，则目的基因只能以一个方向被克隆入载体内，即可实现定向克隆。

（四）重组体的筛选

选用合适的宿主细胞如HB101或DH1等，用预冷的CaCl ₂溶液处理制备成感受态细胞（competent cells）。用重组质粒转化感受态细胞，每1μg质粒DNA最多可得到约1×10 ⁷转化株。目前使用的质粒载体都是有抗药性标记的，被转化后的细菌在含有这些抗生素的培养基上能够生长，而未被转化的细菌则不能生长或被杀死。除此之外还有许多的其他策略被用于重组体的筛选。抗性基因插入灭活法：当限制酶作用于载体DNA的某一抗药基因上并在此处插入外源DNA时，载体上原有的抗药基因即被破坏，由此重组体转化的宿主细胞对这个抗生素敏感，这样便可筛选出转化菌株。噬菌斑形成筛选法：参见质粒载体部分内容。核酸杂交法：根据核酸杂交的原理，制备一段与目的基因有广泛同源性的DNA或RNA探针，通过观察探针与目的基因是否杂交来确定重组体，探针标记方法有许多，如同位素法和生物素法等。

（五）克隆基因的表达

当目的基因被插入表达载体后于适当的条件下（温度、湿度和诱导物等）可在宿主细胞（原核细胞或真核细胞）中准确和高效地表达。然后采用生物工程后处理（downstream treatment for biotechnology）对表达产物（蛋白质或多肽）进行分离和纯化，检测其生物活性并以适当的方式保存备用。

四、DNA微阵列（DNA芯片）

许多研究发现特定基因的DNA突变或改变可能会导致某种疾病。实际上由于这些突变往往发生在庞大基因的多个区域中，所以采用单一突变检测的方法不具有实际应用意义。例如，统计表明 BRCA1和 BRCA2基因突变与所有遗传性乳腺癌和60%卵巢癌相关，但无法确定究竟是哪个特定的突变引起肿瘤发生。仅仅在 BRCA1基因就发现了800种不同的突变。

DNA微阵列是一种检测工具，用于确定特定个体的DNA中是否含有类似 BRCA1和 BRCA2基因的突变。芯片由一个装在塑料里的小玻璃板组成，以类似于计算机微芯片的方法排列成微阵列（二维DNA探针阵列）。在每一个芯片表面上含有数千个短的、合成的单链DNA序列，这些DNA序列包含有正常基因，以及在人类群体中已经发现的变异（突变）基因。其原理是将这些大量探针分子固定于支持物上后与标记的样品分子进行杂交，通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。

微阵列的三种基本类型：①斑点阵列（spotted arrays on glass）；②自组装阵列和（self assembled arrays）；③原位合成阵列（in-situ synthesized arrays）。

在斑点阵列中，通常情况下玻璃表面涂有一些帮助保持DNA的物质，例如聚赖氨酸，硅烷或化学表面活性物质；在样品中也加有可协助靶基因的一个或多个“笔”（或多笔），以物理原理便于沉积在玻璃片上。自组装阵列中，采用一定大小的高分子球珠，玻璃支撑物上有相应大小的坑。高分子球珠表面结合有一组不同的寡核苷酸。原位合成阵列可以通过喷墨oligo合成方法生产或通过光刻方法，Affymetrix产品多属于此类。该方法可以使基因芯片的探针密度大大提高，减少试剂的用量，实现标准化和批量化大规模生产，有着十分重要的发展潜力。

DNA芯片技术主要过程包括：

1.分离和纯化样品mRNA

在用于比较基因表达时，通常包含有2个样本，一个样本作为对照，另一个样本将是实验（健康与疾病，等等）样本。

2.反转录和标记mRNA

通常采用荧光标记核苷酸进行反转录（RT）产生一个荧光互补DNA链（cDNA）。疾病和健康的样品可以用不同的荧光染料标记，并与同一个芯片共杂交（cohybridized）。也有一些方法不标记cDNA，而是使用二步放大，用cDNA作为模板来生成标记的cRNA链。

3.杂交

将标记的cDNA与DNA芯片杂交，互补的分子将结合到DNA芯片的探针上，通过一系列的清洗可以去除那些非结合的序列分子。

4.扫描芯片和信号定量

常用的芯片信号检测方法是将芯片置入芯片扫描仪中，通过扫描以获得有关生物信息。信号被检测、量化，并用于创建阵列的数字图像。特定基因荧光信号的强度取决于目标样品与芯片该点上的探针的结合量。

除了DNA测序外，微阵列技术也是对大量复杂数字数据分析的技术。为了让其他人能够重现给定的微阵列实验，对阵列、样本、方案和数据分析方法进行详细的描述变得非常必要。此外，开放原始数据和处理数据对其他人，访问者可对数据进行重新分析或组合分析（meta analyses），会提升或补充原作者的构思。为了解决重复性问题和数据交换，相关专业微团体成员（www.fged.org）创建了MIAME（关于微阵列实验的最小信息）的微阵列实验标准，可在此共享和查询相关数据。

DNA芯片的应用主要包括基因表达检测、突变检测、基因组多态性分析和基因文库作图以及杂交测序等方面。在实际应用方面，生物芯片技术可广泛应用于疾病诊断和治疗、药物筛选、农作物的优育优选、司法鉴定、食品卫生监督、环境检测、国防、航天等许多领域。

例如，目前GLP-1及其类似物已被用于糖尿病治疗，但需要了解GLP-1是如何直接影响人胰岛细胞的基因表达谱，DNA芯片就提供了一个很好的研究工具。在研究中，作者采用人U133A芯片（包括23 000个探针组），比较分析了利拉鲁肽处理的人类胰岛转录后基因表达。微阵列分析鉴定出有7 000个基因在人胰岛中表达，其中80多个基因受利拉鲁肽的调节。一些重要的基因例如 EMA3C、 RBBP6、 BARX1、 S100A9和 DNAM-1在GLP-1处理后高表达，而 KCNJ15、 UTS2、 SLC7A6、 HSA9947和 ARHGEF9显著低表达。这些基因的产物分别涉及蛋白质结合能力、酶活性、转运功能、信号转导、细胞增殖、凋亡和细胞分化，这方法反映了胰岛细胞GLP-1受体激活后复杂事件中的一组信息，对于理解GLP1的作用机制和研发新药，具有重要意义。

五、蛋白质芯片

蛋白质芯片（protein chip）是由固定于不同介质上的蛋白微阵列组成，这些蛋白包括抗原、抗体及标志蛋白，然后用标记的或未经标记的另外一个蛋白，如抗原、抗体或配体进行反应，有的需要经洗涤后再加入标记的二抗进行反应，从而达到放大抗原抗体反应的目的。所用的标记物有荧光物质，如Cy3（青色素，一种荧光染料）和Cy5等；酶，如辣根过氧化物酶，化学发光物质等；其他分子，如免疫金标记，然后再进行银染对反应结果显色。反应结果用扫描装置进行检测或用肉眼直接进行观察。蛋白质芯片的检测包括两类方式，一类是直接检测法，即直接对捕捉到的蛋白进行检测，包括加强纳米簇共振技术、等离子体共振技术（SPR）、固相激光激发时间分辨荧光光谱法和表面加强激光解吸离子-飞行时间质谱法（SELDI-TOF-MS）。另一类检测方法是间接检测法，即通过使用发光物质包括荧光物质、化学发光物质、酶、同位素等对被检测物或其抗体进行标记，然后用激光扫描或CCD对信号进行检测，类似于ELISA方法，标记第二抗体分子。

以载体不同，蛋白芯片的介质有滤膜类、凝胶类和玻璃片类，以及最新的液相芯片技术和光学蛋白芯片。市场上目前有功能研究型芯片和检测型芯片。功能研究型芯片多为高密度芯片，载体上固定的是天然蛋白质或融合蛋白。该种芯片主要用于蛋白质活性以及蛋白组学的相关研究；检测型芯片的密度相对较低，固定的是抗原、抗体等，主要用于生物分子的大量、快速检测。

蛋白质芯片是一种高通量的蛋白功能分析技术，可用于蛋白质表达谱分析，研究蛋白质与蛋白质的相互作用，甚至DNA-蛋白质、RNA-蛋白质的相互作用，筛选药物作用的蛋白靶点等以及疾病诊断。

Hudelist等人采用含有378个单克隆抗体的微阵列，比较正常组织和乳腺癌细胞内的蛋白表达水平，结果发现一些潜在的生物标志物，包括酪蛋白激酶1ε（CSNK1E），p53（TP53），细胞分裂周期25C（CDC25C），膜联蛋白A11（ANX11），真核翻译起始因子4E（EIF4E）和丝裂原活化蛋白激酶7（MAPK7）等在乳腺癌中呈现高表达水平。

VanMeter等人采用该技术观察了非小细胞肺癌（NSCLC）患者的样品中的EGFR磷酸化，发现携带突变型EGFR的患者，EGFR的Tyr-1148和Tyr-1068磷酸化升高，Tyr-1045处磷酸化减少。磷酸化减少也发生在胰岛素受体底物1（IRS-1）中的Tyr-1248，Ser-612处的Tyr-1248，和Ser-465。他们还评估了在EGF配体刺激后具有突变型和野生型EGFR的NSCLC细胞系中115个信号蛋白的磷酸化时间过程，揭示了磷酸化子集与配体诱导相关，提示其中一些部位可作为治疗NSCLC潜在的药物靶点。

第五节 序列分析

第五节　序列分析