Pandas数据分析快速上手500招(微课视频版)
上QQ阅读APP看书,第一时间看更新

050 从压缩格式的文本文件中读取数据

此案例主要通过在read_csv()函数中设置compression参数值,实现从压缩格式的文本文件中读取数据,并据此创建DataFrame。当在Jupyter Notebook中运行此案例代码之后,将从压缩文件(myspace.zip)中读取该压缩文件包含的文本文件(myspace.txt)的数据,效果分别如图050-1和图050-2所示。

图050-1

图050-2

主要代码如下。

在上面这段代码中,pd.read_csv('myspace.zip',delim_whitespace=True,compression='zip')表示读取压缩文件(myspace.zip)的数据,参数compression='zip'表示压缩格式是zip。如果压缩文件(myspace.zip)的压缩格式是zip,也可以省略compression参数值,即pd.read_csv('myspace.zip',delim_whitespace=True)也能实现完全相同的功能。如果压缩文件(myspace.arj)的压缩格式是zip,则必须设置compression='zip',即执行pd.read_csv('myspace.arj',delim_whitespace=True,compression='zip')才能正确读取压缩文件(myspace.arj)的数据,执行pd.read_csv('myspace.arj',delim_whitespace=True)代码将报错。

此案例的主要源文件是MyCode\H197\H197.ipynb。