2.1 SAS的安装和版本介绍
从本章开始,我们将正式开始SAS语言的学习。相信通过上一章的讲解,你对SAS的应用领域和职业发展都有了详细的认识,恨不得赶紧把SAS的每一个语法学透,早日成为一名合格的数据分析员。且慢!在学习一门语言或软件之前,我们应该先了解这门语言或软件的发展简史和更新历史,所谓知源论史,才能通晓未来。
2.1.1 先聊聊SAS的发展脉络
跟其他技术类书籍一样,这里首先介绍一下SAS的历史和发展脉络。
SAS的全称为Statistical Analysis System,由SAS研究院创立。从这个名字可以看出来,SAS的野心是成为统计行业的标准软件,而不仅仅是成为一款数据分析工具那么简单。目前在统计行业,SAS虽然不算一家独大,但其很多底层设计和编程思路影响着整个统计分析行业。
SAS最初由北卡罗莱纳大学的SAS研究所在1967年创建。在前文我们提到过,SAS的出现是为了解决特定问题,即大数据量的统计分析。1966年,美国国立卫生研究院为分析大量农业数据,拨款给北卡罗来纳大学研发一款运行在当时最先进的IBM System/360计算机上的统计分析工具。这款计算机有多先进呢?8~64KB内存,256~1024KB硬盘,当时IBM征召了6万名员工,新建了5座工厂才在多次延期之下将这款计算机开发完成。相比之下,美国国立卫生研究院的农业数据有多少条呢?详细的数字已经湮灭在历史中,但据笔者查到的资料来看,至少有数万条。数万条的数据对应几十KB的内存和不到1MB的硬盘,对当时的人来说这是一个极其艰难的任务。因此SAS在诞生初期就需要考虑运行效率,对资源不允许有一丝的浪费,这也是SAS直到现在对大样本数据分析具有压倒性优势的原因。到了1972年,美国国立卫生研究院停止支持SAS项目,但SAS项目的参与者仍愿意出资维护它,因此SAS也逐步变成一个商业化软件。
可以看到,与其他大部分数据分析工具不同,SAS的诞生是为了解决具体问题,当拨款结束后,“继续活下去”变成了SAS发展的重要动力。目前SAS的标语为:The Power to Know,可以翻译为“知道的力量”,从这句标语中我们也可以看出SAS的目标是从数据中挖掘出一切可以获取的信息,这也是我们每个数据分析师正在做的事情。
1985年,SAS公司发布可以运行在UNIX、DOS和Windows系统上的SAS 5,并用C语言完全重写了程序。
1990年,SAS 6版本诞生,可以运行在Macintosh、OS/2、Silicon Graph和Primos等平台上,除了苹果的Macintosh外,其他平台现在的读者可能都没有听说过,当时的SAS确实做到了对主流平台的兼容。
2004年,SAS的最新一代大型版本SAS 9诞生,该版本对SAS界面进行了优化,使UI交互效率提升,并新增了Enterprise Guide,即用户可以使用拖曳的功能完成某些基本的分析和建模。这个版本也是目前我们绝大部分用户使用的基础版本。
目前SAS最新的版本是SAS 9.4m6,大多数读者在工作中接触到的版本应该都是9.2或以后的版本,本书采用9.4版本进行编程演示。不过大家不用担心版本问题,在语法上,SAS保证了前后版本的一致性,以前版本下编写的SAS程序可以直接在新版本中运行并获得正确的结果,每个版本更新往往只是增加新功能。
以上对SAS历史和版本的介绍对我们的工作很难有实际帮助,但知其所以然,一定是你掌握好一门工具的前提。
2.1.2 SAS三种不同版本的安装方式
下面我们需要了解一下SAS的安装方式,不同版本的SAS安装方式是不同的,注意这里的版本概念与前文所说的版本有所不同,指的是SAS安装的不同平台。这个概念比较容易混淆,前文所谓的SAS版本是按照时间发布的,后续具有更多功能和改进的SAS程序的不同版本,而下述要讨论的版本指SAS提供给用户可以在不同平台上使用的具有相似功能的软件系统,在英文中,前一个版本是version,后一个版本是edition,因为中文这两个单词都可以翻译成版本,所以在这里需要做一个解释。下文的版本指的是edition,即SAS提供给用户的不同形式的操作界面。
SAS有3种不同的版本,分别是主机版、虚拟机版和SAS OnDemand版。下面我们来分别介绍安装方法。
1.主机版安装指南
主机版是安装在你自己的电脑上,使用你自己的电脑算力完成数据分析的SAS版本;它拥有最强的SAS功能,支持SAS的一切功能。和一般软件安装相同,SAS的主机版先要下载程序包,如图2-1所示。
图2-1
注意:SAS的安装包往往非常大,以SAS 9.4版本为例,安装包大约有13GB,安装完成后大约会占用40GB的空间,请确保你的磁盘有足够的存储空间。
下面简要地介绍一下SAS主机版的安装步骤。
(1)选择安装程序的语言,这里建议大家选择英文,如图2-2所示。
图2-2
(2)选择操作,该面板可以选择安装SAS软件或管理已安装的软件。第一次安装选择Install SAS software,如图2-3所示。
图2-3
(3)设定安装路径,为了避免安装出现意外错误,建议使用纯英文路径,如图2-4所示。
(4)接下来选择安装的附加程序。SAS的组件非常多,每个组件都可以完成不同的功能,其中SAS Foundation是所有功能的基础,在安装时必须选择,如图2-5和图2-6所示。
(5)我们需要选择购买的SAS序列号文件所在位置,然后程序会告诉你每一个模块的过期时间,如图2-7所示。
图2-4
图2-5
图2-6
图2-7
(6)选择SAS软件的语言,建议包含英文。一方面因为SAS对中文并不是很友好,某些中文翻译反而让人摸不着头脑,另外,SAS在中文世界的资料和教程并不是很多,很多时候我们需要查询英文的资料,如果选用中文就无法和英文资料严格对应,反而增加了我们的思考量,如图2-8所示。
图2-8
(7)选择所在区域,这个设置会影响SAS某些默认的日期和数字显示格式,如图2-9所示。
(8)选择SAS文件(程序、数据集、输出结果)的默认打开方式,如图2-10所示。
(9)接下来需要检测安装SAS的系统环境,确认所需要的组件和环境变量都搭建完毕,如图2-11所示。如果有某些问题无法安装,Unwritable file的数量将会不再是0,你需要根据下方的提示进行某些操作然后继续安装。
(10)SAS就会进入安装步骤,如图2-12所示。这期间请耐心等候,所有被你选择的SAS模块都会依次安装。这个过程根据电脑性能的不同,一般持续10分钟至半小时。
图2-9
图2-10
图2-11
图2-12
(11)在完成安装后,单击图2-13中的Next按钮,会出现图2-14所示的界面,窗口上有官方的帮助文件获取方式,点击Finish按钮结束安装。
图2-13
图2-14
对于个人来说,安装SAS桌面版的机会其实很少,如果你去某家使用SAS的公司,往往是公司为你安装或者提供给你一台已经装好SAS程序和相应模块的电脑。因为SAS的授权机制极其复杂,不同模块的组合价格千差万别,企业用户的价格也和个人用户不同。另外,为了保护数据安全,公司往往不会允许个人安装SAS处理公司的数据。对于个人用户,我们更多的是使用SAS虚拟机版和SAS Studio进行练习。
2.SAS虚拟机版安装指南
SAS虚拟机版的官方称呼为SAS University Edition,中文官网翻译为SAS大学版,其创建初衷是提供给想要学习SAS技术的人的一个平台,可以实现SAS基本的功能。虚拟机版仍然使用本地计算机的算力,数据也存储在本地,只是需要安装虚拟机软件才能使用。
下面我们以广泛使用的免费虚拟机软件VirtualBox为例,讲解SAS虚拟机版的安装方法。
(1)首先下载VirtualBox虚拟机软件并安装。
(2)在等待安装的时候,请在电脑上创建一个名为SASUniversityEdition的文件夹,然后在该文件夹中创建一个名为myfolders的文件夹。
(3)下载SAS大学版安装程序,如图2-15所示。这是一个基于Linux系统搭建的只能运行SAS的操作系统,文件最新版有2~3GB大小,需要较长时间下载,请保证有稳定的网络。
图2-15
(4)将SAS大学版ova文件导入虚拟机。首先打开VirtualBox软件,选择左上角“管理”→“导入虚拟电脑”命令,如图2-16所示。然后在弹出的窗口中选择下载的ova文件并打开,如图2-17所示。
(5)设置虚拟机的参数。大部分设置使用默认即可,如图2-18所示。这里需要注意内存大小,SAS官方建议内存至少要1GB,现在一般的家用电脑内存在8~16GB,建议大家设置为4GB左右,核心数设置为2或4,这样可以保证SAS运行时有足够的内存和处理器资源。
图2-16
图2-17
图2-18
(6)配置共享文件夹。设置完成后点击导入按钮,在VirtualBox左侧就会出现SAS University Edition的选项,单击该选项,选择顶部的设置,在打开的窗口中配置共享文件夹,如图2-19所示。
图2-19
在弹出的窗口中的左侧选择共享文件夹,然后点击右侧的添加按钮(图2-19所示)。在弹出的窗口中选择在第二步创建的myfolders文件夹,然后勾选自动挂载。注意千万不要勾选只读分配选项,否则在此文件夹下只能读取文件无法存储。
图2-20
(7)完成以上设置后,就可以启动SAS虚拟机版并开始使用了。点击VirtualBox界面左侧的SAS University Edition,点击上方的绿色启动箭头,启动SAS虚拟机程序,一般启动过程会耗费1分钟左右的时间。当启动完成后,如图2-21所示的窗口会出现。
然后打开浏览器,在浏览器地址栏中输入“http://localhost:10080”,即可进入SAS虚拟机版。
图2-21
单击启动SAS Studio按钮,即可开始使用SAS,如图2-22所示。
图2-22
可以看到,虚拟机版的SAS界面与桌面界面有所不同,精简了许多内容,但基本功能仍然保留。虽然是使用网页浏览器打开,但它实际上仍使用虚拟机中的算力进行运算。
3.最轻便的版本——SAS on Demand
无论是桌面版还是虚拟机版,我们都需要经过漫长烦琐的安装才能使用SAS。随着云计算概念的兴起,越来越需要轻量化的软件,即所有的程序和数据都放在云端,我们通过互联网,就可以在云端使用、上传和下载,所有计算的算力也由云服务器提供,不会占据本机资源。如果你对SAS有以上期待,恭喜你没有失望,SAS on Demand版本可以满足你。
SAS On Demand,是SAS在2014年推出的基于云平台的SAS联网即用版本,可以实现以上所有需求。下面介绍SAS onDemand版本的进入方式和步骤。
(1)在浏览器中输入地址进入SAS OnDemand首页,地址如下:
http://support.sas.com/software/products/ondemand-academics
(2)单击页面中的Control Center,进入登录页面,如图2-23所示。
图2-23
SAS OnDemand版本需要登录,如果你没有账号,可以先免费注册。
(3)注册后点击Sign in按钮,即可看到如图2-24所示的登录界面,输入账号和密码就可以进入首页,如图2-25所示。
图2-24
登录首页包含了很多信息,左侧为信息流,主要是系统更新维护时间。SAS OnDemand的维护很频繁,基本每星期都需要维护,请提前做好记录和规划,避免紧急情况下使用SAS却发现无法登录。右侧包括引用资料、空间使用情况等。左侧主栏目最下方的Applications面板中的SAS Studio就是登录按钮,单击它即可进入SAS OnDemand编程界面,如图2-26所示。
图2-25
图2-26
可以看到,SAS OnDemand与SAS University Edition的面板相同,因为它们都是SAS为了满足学习者在非商业用途下的使用而提供的。
2.1.3 到底该用哪一版
前面3个小节力求把SAS各种版本讲清楚,让读者有一个全方位的了解,但也可能让读者产生更大的疑惑:我到底该用哪一版?
在工作中,这个问题不用纠结,唯一的答案是公司让你用哪版你就用哪版。当然,一个公司作为盈利机构,桌面版SAS是唯一的选择。如果你进入某家公司后发现公司让你使用的是SAS虚拟机版或SAS Studio版,那你至少需要考虑一下这家公司的实力,为什么连一个行业必备的软件的授权费都不愿意出,而是冒着法律风险使用非商业版?
在非工作场景,也就是我们需要自己安装SAS的时候,桌面版、虚拟机版和SAS Studio版都是可以考虑的,首先分析一下3种版本的优缺点,如表2-1所示。
表2-1
从对比表中我们可以看出,3种版本各有独特的优势,同时有所局限,我们应该选择合适的版本使用。
如果你在工作之外,还有一些兼职可以做,或者想快速深入地学会SAS编程技术,那么别犹豫,购买SAS正版授权,安装桌面版是最合适的。桌面版的SAS无论在功能上还是性能上,都比另外两个版本高出一筹。更重要的是,桌面版SAS与你日常工作界面完全一致,这样就保证了编程的沉浸式体验,可以更快地提升。
如果你是在校学生或者正在学习SAS,那么我推荐安装虚拟机版本。一方面虚拟机版本是免费的,不会产生额外开销,另一方面虚拟机版本不像SAS Studio版本一样需要联网,不会因为宿舍断网的问题导致无法使用,这一点对于在校学生来说尤为重要。还有一点,虚拟机版的程序和文件都是存储在本地,如果你希望分享给其他人,可以直接把myfolder文件夹下的文件发送,而SAS Studio版本则需要从网络上下载再发送。
如果你拥有比较好的网络连接,并且电脑性能不是很好,或者拥有多台电脑需要切换使用,建议使用SAS Studio版本,同样是零成本,SAS Studio版本的最大优势就是“随时随地”,不用安装,联网即用,这也代表未来很多应用的趋势。
总而言之,正确了解SAS各版本的优缺点,是我们开始SAS学习的必经之路。我们将在下一节探讨SAS的程序面板和各部分功能,请大家安装好SAS,一起开始我们的学习之旅吧!