在python中转换大文件

时间:2014-06-02 22:00:17

标签: python database large-files large-data

我有一些大小约64GB的文件,我想我想转换为hdf5格式。我想知道这样做的最佳方法是什么?逐行阅读似乎需要超过4个小时,所以我正在考虑按顺序使用多处理,但希望在没有求助于hadoop的情况下,最有效的方法是一些方向。任何帮助将非常感谢。 (并提前谢谢)

1 个答案:

答案 0 :(得分:3)

对于这类问题,我通常会转向Python。你是正确的,多处理/并行化是一个很好的解决方案,但Python在这个领域中不愉快。考虑在JVM上尝试一些东西。我喜欢Clojure的core.async,但也有peach("平行每个")或celluloid的JRuby库,'更接近Python。

这种做法不一定非常重要。"作为Hadoop,但我仍然在文件上使用类似的map / reduce模式。让一个线程从源文件中逐行读取并分派到多个线程。 (使用core.async我有多个队列被不同的线程消耗,然后将一个"完成的"信号反馈到看门狗线程。)最后你应该能够挤压一个你CPU的很多性能。