处理大量数据

时间:2016-09-30 22:16:07

标签: python csv dataframe bigdata

所以我正在使用参数化能量模拟,最终在.CSV个文件中存储了500GB +的数据。我需要能够处理所有这些数据以比较结果并获得不同参数影响的见解。

每个csv文件名都包含用于模拟的参数的信息,因此我无法合并文件。

我通常使用pandas将.csv文件加载到python并定义一个Class。但现在(有了所有这些数据)没有足够的内存来做到这一点。

你能指出我处理这些数据的方法吗?我需要能够绘制并比较csv文件。

感谢您的时间。

1 个答案:

答案 0 :(得分:0)

Convert csv文件到hdf5,它是为处理大量复杂数据集而创建的。它适用于pandas以及other libraries