R语言数据分析从入门到实战
上QQ阅读APP看书,第一时间看更新

1.1 R软件介绍

读者可从http://www.r-project.org网站下载适合自己操作系统的新版R软件。安装R软件后,可在http://www.rstudio.com/下载RStudio。RStudio是一个为R设计的集成开发环境。R和RStudio在Windows操作系统上的安装步骤如附录A及附录B所示。

R网站中提供了功能非常强大的工具集,我们可以从网站上安装相关应用的包(Package,或称为程序包,软件包),R提供了1万个以上的免费包。当我们的计算机连接到因特网后,若使用Windows版本,则很容易通过“程序包”菜单选项来安装这些免费的程序包。可从该菜单中选择“加载程序包”选项来选择可用的包。在我们选择好想要的包之后,R软件将下载所选用的包并自动进行安装。本书中的范例及操作皆在Windows操作系统下进行,如果我们要在UNIX、Linux或者MacOS上运行R软件,则可能需要进行相应的调整。我们也可以自行安装包,例如安装C5.0决策树包C50(注意英文字母大小写是否相同),只需要在R提示符号“>”后输入以下指令(注意:当提示符号为“+”时,表示程序正在执行中,或在等待未执行完成的指令):

可使用以下指令来调用C50包中提供的函数:

若要删除已安装的包,例如C50包,可使用下面的指令:

R软件是一种语法非常简单的表达式语言(Expression Language)。R语言支持对象(Object),对象名称(变量)第一个字母须为英文字母或句点“.”,若以句点为对象的第一个字母,则其后接的第一个字符不能为数字,例如.2iswrong不能当对象名称。对象不需要事先声明,但对象名称中的字母大小写代表不同的对象,因此X和x是不同的对象名称。R语言保留了一些标识符作为指令名称,即保留字,如c与NA等。R语言可使用赋值(Assignment)表达式“<-”来进行赋值操作(也可以使用“=”),例如:

也可以通过对象名称的数据种类(属性,Attribute)来描述其对象的特性,也就是说,一个对象名称的作用取决于该对象名称的属性。所有的对象名称都有两个内在属性:数据类型(Mode)和长度(Length)。对象名称中的元素(Element)共有4种基本数据类型:数值(Numeric)、字符串(Character)、复数(Complex)和逻辑(Logical)。虽然也存在其他的数据类型,但是并不能用来表示数据,例如函数(Function)或表达式(Expression)。长度(Length)是指对象中元素的数量。对象的数据类型和长度可以分别通过函数mode()和length()得到。

如果要在同一行中运行多个表达式,则可以使用分号“;”隔开这些表达式,例如:

注释可以放在程序中的任何地方,从“#”号开始的行就是注释,例如: