序
大数据正在影响着人类社会和经济活动的模式,同时也正推动着科学的发展。大数据技术与应用已成为继实验、理论和计算模式之后的数据密集型科学范式的典型代表,带来了科研方法论的创新。科学大数据将复杂性、综合性、全球性和信息与通信技术高度集成性等诸多特点融于一身,其研究方法也正在从单一学科向多学科与跨学科方向转变,从自然科学向自然科学与社会科学的充分融合方向过渡,从个人或者小型科研团体向国际科技组织方向发展。另外,科学家不仅通过对广泛的数据进行实时、动态的监测与分析来解决科学问题,更是将数据作为了科学研究的对象和工具,即数据驱动的知识发现。这正是科学大数据的核心价值所在。
大数据正在驱动“数字地球”的发展。“数字地球”是国际上1998年提出的概念,它将航天航空对地观测技术、地理空间信息技术、计算机网络通信技术等与地球科学高度综合集成,实现模拟地球表层变化、支持政府决策、开展数据共享等重大目标。大数据的诞生与发展为“数字地球”研究注入了新的科学推动力。新一代数字地球是利用海量、多分辨率、多时相、多类型对地观测数据和社会经济数据及其分析算法和模型构建的虚拟地球,是科学大数据的典型学科,而数字地球学科中的数据获取与组织、分析、应用均体现了科学大数据的重要特征。约20年前,我们曾将数字地球通俗地解释为“把地球装入计算机”,而在当今大数据时代,我们则可以认为数字地球就是地球大数据。我们可通过在数字地球平台上对海量空间数据和社会经济数据进行高效的组织,从而在更丰富的数据空间进行科学信息挖掘和分析。
地球大数据涉及陆地、大气、海洋、天文、空间等地球系统科学各基础学科以及遥感、导航、地理信息系统、网络、高性能计算、虚拟现实等技术学科。建立基于地球大数据的新型研究范式,需要掌握这些数据的获取、传输、保存、管理、共享、处理和分析等全生命周期的特点,尤其要突破地学大数据的信息挖掘技术。揭示隐藏在海量观测数据、模拟数据和再分析数据中的内在知识是我们利用大数据的根本目标,近20年来数据挖掘方法成为人类驾驭数据的主要途径,但是地学大数据场景下的数据挖掘方法一方面要适应大数据的特征,另一方面还要适应地学数据的特征,需要创造性地继承和发展传统的数据挖掘方法。
李国庆、刘莹等专家针对地球科学和大数据快速发展的趋势,编著了《地球科学中的大数据分析与挖掘算法手册》一书。该书基于地学各学科中数据挖掘方法的使用经验,结合地球科学的具体应用,根据地学数据和信息特点,系统性地对数据挖掘算法进行了梳理,按照“数学方法—算法原理—算法发展—大数据适应性—地学适应性”的思路对算法模型进行比较分析,是一部适时的有前瞻性的著作,对于地学研究人员有重要的参考价值和有益的导向作用。
我有幸先读为快,并向读者推荐该书,有理由相信地学学者和大数据学者可以借此来发展和丰富地球科学领域的大数据挖掘方法,更好地驾驭大数据战略资源,掌握、揭示更多的地球系统科学规律。我同时呼吁大家共同关注地球大数据,让地球大数据成为地球科学发展之光,让地球大数据成为人类认识地球的新钥匙。
郭华东[1]
2017年4月10日于北京
[1]中国科学院院士、俄罗斯科学院外籍院士、发展中国家科学院院士