应用错误收集

时间：2014-05-05 10:39:52

标签： mrjob

我有一个相对较大的文件 - 大约10GB处理。我怀疑它不适合我的笔记本电脑的RAM，如果MRJob决定在RAM或类似的东西中对它进行分类。

与此同时，我不想设置hadoop或EMR - 工作并不紧急，我可以在入睡前简单地启动工作人员并在第二天早上获得结果。换句话说，我对本地模式非常满意。我知道，表现不会很完美，但现在还可以。

所以它可以处理这样的＆＃39;大＆＃39;单个弱机器上的文件？如果是 - 您会建议做什么（除了设置自定义tmp目录指向文件系统，而不是快速耗尽的ramdisk）。我们假设我们使用版本0.4.1。

答案 0 :(得分：1)

我认为RAM大小不会成为mrjob的python跑者的问题。每一步的输出都应该写到磁盘上的临时文件中，所以它不应该填满我认为的RAM。将输出转储到磁盘是Hadoop的应用方式（以及由于IO而导致速度慢的原因）。所以我只是运行这份工作，看看它是怎么回事。

如果RAM大小存在问题，您可以在笔记本电脑上创建足够的交换空间，使其至少运行，如果分区不在SSD上，它会很慢。