我可以使用MRJob在本地模式下处理大文件吗?

时间:2014-05-05 10:39:52

标签: mrjob

我有一个相对较大的文件 - 大约10GB处理。我怀疑它不适合我的笔记本电脑的RAM,如果MRJob决定在RAM或类似的东西中对它进行分类。

与此同时,我不想设置hadoop或EMR - 工作并不紧急,我可以在入睡前简单地启动工作人员并在第二天早上获得结果。换句话说,我对本地模式非常满意。我知道,表现不会很完美,但现在还可以。

所以它可以处理这样的'大'单个弱机器上的文件?如果是 - 您会建议做什么(除了设置自定义tmp目录指向文件系统,而不是快速耗尽的ramdisk)。我们假设我们使用版本0.4.1。

1 个答案:

答案 0 :(得分:1)

我认为RAM大小不会成为mrjob的python跑者的问题。每一步的输出都应该写到磁盘上的临时文件中,所以它不应该填满我认为的RAM。将输出转储到磁盘是Hadoop的应用方式(以及由于IO而导致速度慢的原因)。所以我只是运行这份工作,看看它是怎么回事。

如果RAM大小存在问题,您可以在笔记本电脑上创建足够的交换空间,使其至少运行,如果分区不在SSD上,它会很慢。