绪论
1946年2月15日,在美国宾夕法尼亚大学莫尔电工学院诞生了人类历史上的第一台计算机——ENIAC。在人类发展史上,还没有哪一种发明创造能够像计算机这样,以异常迅猛的发展速度,占据了人类生活的各个角落。
今天,在这个星球上,计算机应用最为广泛的领域是信息处理,它遍及现实生活中的每一个行业、每一个领域。特别是近年来,随着技术进步、互联网普及、移动互联网技术的出现、计算机硬件技术的不断发展和数据采集、数据存储、数据处理技术的长足进步,使得我们对数据分析与处理人才的需求不断增强。
数据分析与处理的目的就是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。
在实用中,数据分析与处理可以帮助人们做出判断,以便采取适当的行动。数据分析是组织有目的地收集数据、分析数据并使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个生命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升数据的有效性。
无论数据分析还是数据处理,都需要掌握各种分析手段和技能,特别是要掌握数据分析软件工具!目前在数据分析与处理领域中应用得比较多的软件有SAS、Markway、SPSS、Excel等,在此对这几种软件进行简单的介绍和对比。
1.SAS
SAS全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能仅限于统计分析。至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为9.0版,大小约为1G。经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通信、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在1996~1997年度被评选为建立数据库的首选产品,堪称统计软件界的巨无霸。
SAS是由大型计算机系统发展而来,其核心操作方式就是程序驱动,经过多年的发展,现在已成为一套完整的计算机语言,其用户界面也充分体现了这一特点。它采用MDI(多文档界面),用户在PGM视窗中输入程序,分析结果以文本的形式在OUTPUT视窗中输出。它使用程序方式,用户可以完成所有需要做的工作,包括统计分析、预测、建模和模拟抽样等。但是,初学者在使用SAS时必须要学习SAS语言,入门比较困难。SAS的Windows版本根据不同的用户群开发了几种图形操作界面,这些图形操作界面各有特点,使用时非常方便。但是由于国内介绍它们的文献不多,并且也不是SAS推广的重点,因此还不为绝大多数人所了解。
2.Markway
Markway(马克威分析系统)是中国第一套完全自主知识产权的大型统计分析和数据挖掘系统。它的诞生标志着中国成为世界上少数几个拥有同类技术的国家之一。
马克威分析系统用于从海量信息和数据中寻找规律和知识,通过数据挖掘和统计分析等技术建立概念模型,为决策者提供科学的决策依据。它是一套集分析、挖掘、预测、决策支持于一体的知识发现工具,适用于企业、政府、科研、教育、军队等单位和机构。
马克威分析系统在技术上有以下四大特点:第一,它将数据挖掘、统计分析、图形展示和智能报表融为一体,为用户提供完整配套的决策支持工具,这在世界上是独一无二的;第二,它提供独创的优化算法体系和完备的数据挖掘模型,这些都处于国际先进水平;第三,它将可视化数据分析与数据挖掘有机地融合在一起,并将自主开发的嵌入式数据库管理系统同其他关系型数据库实现了无缝连接;第四,它在设计上充分考虑了中国用户的实际情况和使用习惯,将实用性和科学性结合在一起。
3.SPSS
SPSS(Statistical Product and Service Solutions),即“统计产品与服务解决方案”软件。SPSS是世界上最早的统计分析软件,它首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似Excel表格的方式输入与管理数据,数据接口较为通用,能方便地从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。
SPSS输出结果虽然漂亮,但是很难与一般办公软件如Office直接兼容,如不能用Excel等常用表格处理软件直接打开,只能采用复制、粘贴的方式加以交互。在撰写调查报告时,往往要用电子表格软件及专业制图软件来重新绘制相关图表,这已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SAS和BMDP相比,仍有一定欠缺。
虽然如此,SPSS for Windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、数学、统计学、物流管理、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业等各个领域。
4.Excel
Microsoft Excel是微软公司的办公软件Microsoft Office的组件之一,是由Microsoft为使用Windows和Apple Macintosh操作系统的电脑而编写和运行的一款试算表软件。Excel是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。
Excel中大量的公式函数可以应用选择,使用Microsoft Excel可以执行计算,分析信息并管理电子表格或网页中的数据信息列表与数据资料图表制作,可以实现许多方便的功能,带给使用者方便。
Excel电子表格软件历经多年的发展,从一款小软件成为人们日常工作中必不可少的数据管理、处理软件。
Excel 2010具有强大的运算与分析能力。从Excel 2007开始,改进的功能区使操作更直观、更快捷,实现了质的飞跃。不过要进一步提升效率,实现自动化,单靠功能区的菜单功能是远远不够的。在Excel 2010中使用SQL语句,可能灵活地对数据进行整理、计算、汇总、查询、分析等处理,尤其在面对大数据量工作表的时候,SQL语言能够发挥其更大的威力,快速提高办公效率。
Excel 2010可以通过比以往更多的方法分析、管理和共享信息,从而做出更好、更明智的决策。Excel 2010全新的分析和可视化工具可跟踪和突出显示重要的数据趋势,可以在移动办公时从几乎所有Web浏览器或Smartphone中访问重要数据,甚至可以将文件上载到网站并与其他人同时在线协作。无论是要生成财务报表还是管理个人支出,使用Excel 2010都能够更高效、更灵活地实现目标。只需单击一下,即可直观展示、分析和显示结果。准备就绪后,就可以轻松地分享新得出的见解。
综合以上各种常用数据分析与统计的软件,针对软件的功能性、易用性及应用范围等方面进行了对比,由表9-1可以看出Excel是目前应用范围最广、操作最简单、功能最齐全的一款软件。
表0-1 常用数据分析与统计的软件对比分析表