上QQ阅读APP看书,第一时间看更新
第一节 生物信息学相关简介
一、生物数据管理系统
生物数据管理系统(biology datamanagement system,BDMS)由各种数据库与软件工具构成,是生物信息学的基础。从计算机科学来讲,BDMS是一种操纵和管理生物研究领域数据的大型软件,主要用于维护和处理数据,保证数据的安全性和完整性。它主要划分为三个层面:储存原始数据的数据层、进行逻辑业务处理的逻辑层以及进行交互的用户层。①数据层用于存储结构化的原始数据,也即位于底层的数据库,它们可以使用结构化的数据库语言(例如SQL语言)进行调用,一般根据数据量、访问量或用途来设立专门的服务器进行管理;②逻辑层位于数据层和用户层之间,由操作和分析数据的集成软件组成,是整个管理系统处理事务的核心。BDMS除了增加、删除、修改和查询等基本指令外大都集成了很多处理数据的分析工具,例如GenBank数据库系统整合了诸如基本局部序列比对软件(basic local alignment search tool,BLAST)等一系列软件工具;③用户层也称为界面层,是整个管理系统的外壳,是用户和系统进行访问交互的入口。狭义上讲,任何一种生物信息学软件都可以称为BDMS,区别只在于规模,例如很多为了方便操作而开发的小型软件包或者脚本程序就没有底层的数据库,甚至没有界面,仅使用简单的命令行模式来控制数据。BDMS主要以在线模式和单机模式存在。在线模式就是系统代码位于互联网服务器上,用户需要借助网络才能访问;单机模式也被称本地化应用,用户需要把原始代码预先安装在自己的计算机中运行,不需要网络。一般来讲,在线系统功能强大,操作方便,但由于速度原因不得不进行数据量上传和下载的相应限制,并且由于网络的开放性使得数据的安全性大打折扣。单机系统在处理数据的速度和安全方面具有很大优势,但需要繁琐的安装和不定期的更新,且功能相对有限。目前很多在线BDMS都提供各种分析工具的单机版,不过阉割了很多在线可以实现的功能,且安装相对比较繁琐。
二、数据库
近年来,由于高通量测序技术的出现,使得PGx研究产生了大量数据,并不断把它们存储到各类数据库中。数据库(database)是伴随计算机而产生的数据存储系统,可以把它看作一个电子化的文件柜(数据空间),用于存放各类结构化的数据。用户通过数据库的查询入口,可以搜索和访问相关数据,并通过业务逻辑模块对数据库进行添加、修改、更新、删除等操作。数据库可以包括多种类型,如简单的字处理系统(写字板或Excel表格)、大型的BDMS(GenBank数据库)等。
一般来讲,出于某种目的把多个数据成组就构成简单的数据集,而数据库则是把结构化的数据按照相应关系存储,并可以进行深层生物学意义挖掘的一个整合数据集。生物数据库的基本元素是记录,每个记录一般由序列、注释和文献等信息组成,其最基本的功能是查询。除此之外,大部分的数据库还具有其他的数据处理功能,例如序列比对、数据可视化等。生物信息数据库大致可分为四类:基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子三维空间结构数据库以及由这三类数据库和文献资料为基础构建的二次数据库。前三类数据库又称为一级数据库,收录原始的试验性数据,包括各个科研机构产生的DNA、RNA和蛋白质序列、蛋白质结构等,具有数据量大、更新快、用户面广、有过多冗余等特点,目前最有代表性的是三大核酸数据库(美国国立生物技术信息中心的GenBank、欧洲分子生物学实验室的EMBL和日本国立遗传学研究所的DDBJ),它们也被称为基本数据库或初始数据库;二级数据库是对一级数据库中的数据进行加工整理并结合文献资料产生的数据库,专注于某一研究领域,具有数据量小、更新慢、冗余少的特点,也被称为专门数据库、专用数据库或专业数据库。
三、分析软件
随着HGP的完成,后基因组时代的开启,各种组学的产生与发展势不可当,BDMS的不断出现和更新迫使数理学家研究新的算法、开发新的软件以发掘生物学数据的隐含意义,从而揭示生命科学的奥秘。
分析软件是为了某种特定的用途而被开发的程序,是一组功能联系紧密,互相协作的指令集合,主要位于BDMS的逻辑层。数据库只是用于存储结构化的数据,而分析软件则是用来处理并挖掘数据库中的数据。分析软件的核心是算法,即一系列解决问题的清晰指令,例如序列比对的动态规划算法等。算法的不同可以使得软件运行速度或者得出的最终结果有很大不同,这就必然促使数理学家去开发新的算法或者更新现有的算法。目前具有同样研究目的分析软件很多,因此就需要研究人员认真选择,从中选取具有最优算法的一个来使用。
四、相关刊物
目前涉及 BDMS内容的杂志有很多,例如核酸研究(nucleic acids research,NAR)、Bioinformatics、BMC Genomics等。截至2016年,NAR已经公布了1685个在线数据库和多个在线分析软件。NAR会在每年元月第1期用一个专版来刊登生物信息数据库相关的内容,并在每年的7月份同样用1期的专版刊登基于网络的软件。这些刊物为BDMS的进一步发展提供了可靠而坚实的平台,使得每一位从事PGx或者生物信息学的研究人员能够迅速掌握最新的情报资讯。
总之,数据库和分析软件是BDMS的核心,是生物信息学的灵魂。未来还会不断出现新的数据库和分析软件,因此我们科研人员学习和掌握BDMS是项坚定不移的首要任务。