1.5 e-Science环境下科研模式与知识流
1.5.1 e-Science环境下的科研模式
海量数据处理、高性能计算与高速网络既是推动网格出现的三大要素,也是e-Science开展过程中遭遇的三大问题。图1-1描述了e-Science出现之前的科研模式下,科研人员对于科学数据以及与科学数据有关的各种操作,如数据的获取(大多通过实验获得数据)、计算与分析均是一种分散性的行为。为了完成某一科研任务,科研人员往往需要在这些分散性行为上耗费时间与精力,科研效率明显不高。
在e-Science环境下,科研模式将发生极大的变革。与以往的科研模式不同,科学家直接面对的将不再是各种分散的数据操作,而是通过网格技术及其相应的中间件实现程序的各种分散性操作的集成。在这种环境下,科学家只需要提交任务请求,便可以通过单一的入口,而无须考虑具体实现过程,接受集成化服务,从而大大提高了科研效率。
图1-1 e-Science出现之前的科研模式
图1-2展示了e-Science环境下新型的科研模式。该图共由三部分组成,图的两端分别为科学家、各种相互联结的操作(实验、存储、分析、计算等),图的中间部分则是可以将科学家和集成操作沟通起来的“桥梁”——网格技术及相关的中间件实现程序。网格技术与中间件实现程序在e-Science开展的过程中担负两种角色:一是要将以往针对数据的各种分散性操作加以联结和集成;二是负责为科学家访问这种集成服务提供入口。这都要求中间件与网格必须具有高吞吐量的数据处理能力。
图1-2 e-Science环境下的科研实现模式图
数据吞吐能力上的优势使得网格可以最大限度地、健壮地、可扩展地、充分利用闲置资源;使得它可以根据科研需要,对各种操作实施定制。为完成某一任务请求,网格可以对某些操作实施灵活的时间限制;网格所面对的数据密集性,使得它在数据处理方面必须具备计算性、可评估性、可存储性与可恢复性;分布式的超级计算能力使得网格可以汇集众多CPU与内存,以突显合作性的方式共享资源完成各种任务。
在网格技术的推动下,科学家也因为VO的到来而在外延上变得更为丰富。虚拟组织是为了实现某一临时的科研目标而临时建立起来的一支虚拟团队。它具有透明地访问网格资源、不需关注资源的物理位置、只需在乎资源的属性及可获取性等特点。它是e-Science环境下科研活动的重要主体。网格是一种可以在动态的、涉及多个学科的虚拟组织中开展资源共享与协同工作求解的技术。由此可见,在e-Science科研模式下,虚拟组织是一个不容忽视的科研虚拟实体。它是科学家这一主体在e-Science时代的延伸。
1.5.2 e-Science环境下的科学研究知识流
在e-Science环境下,科学研究涉及到科学家(包括虚拟组织)、门户网站、元数据管理者、数据掌管中心(Data Curation Center)、机构知识库、同行评议等多个因素,围绕这些因素之间而产生的知识流动、数据流动便构成了e-Science环境下知识流轨迹。
在图1-3所示的科学研究知识流程中,可以发现,知识流的走势是环形的,具有可重复的周期性。在e-Science这种协作科研大环境下,数据或者是知识被创建完毕后,将通过机构存储或者是自我存档这一环节,由机构存储库或者个人知识存储库利用元数据技术进行组织、管理与存储。为了在不同的机构存储库或者是个人知识库之间进行互操作,元数据收割协议提供相应的协助措施。而借助门户网站或者是数据掌管中心提供的服务,科学家或者虚拟组织可以获取并收集来自机构知识库或者个人知识库的相关资料从而开展科研活动。在完成科研活动后,其科研成果将通过同行评议期刊或者是会议论文等渠道加以发表并被收集到机构知识库或者个人知识库中供后续科研活动调用。在此之后,科研人员又开始酝酿下一次科研活动,开展科研所需的知识流、数据流也将开始新的循环周期。如此反复,不断循环,通过知识不断地循环流动,最终实现科研数据、科研资料的高效利用。
图1-3 e-Science环境下科学研究的知识流