上QQ阅读APP看书,第一时间看更新
5.5 浅谈Python处理大数据文件
虽然相比于C++等编程语言,使用Python处理大数据文件效率不高,但是由于Python开发速度快、代码量少、易于维护、成本低,并且有些细节问题使用Python处理极为方便。因此,在很多情况下会选用Python来处理大数据文件。这里介绍一下使用Python处理的两种方法:
(1)将文件切分为多个小段,同时处理多段,处理完成后将处理结果合并。
(2)使用Python自带的迭代器分行处理文件。
由于这个问题难度较大,我们在这里只列出处理思想,不给出具体的程序案例。其实上述两种方法涉及的是一种名为分治法的经典算法,算法的流程图解如图5.3所示。通过这种处理可以充分利用现有的计算资源,但是同时带来的是对于问题的分解管理。具体来说,分治法就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单地直接求解。最后,原问题的解就变成子问题解的合并。算法思想比较简单,但是真正处理时会有很多细节需要注意。
图5.3 分治法的图解