巨大的文件作为mincemeat.py的数据源

时间:2013-07-29 09:14:31

标签: python mapreduce mincemeat

我打算在~100GB文件上使用mincemeat.py来执行map reduce任务。在看到来自mincemeat的示例代码之后,似乎我需要输入内存中的字典作为数据源。那么,提供我的庞大文件作为mincemeat的数据源的正确方法是什么?

链接到百果馅:https://github.com/michaelfairley/mincemeatpy

1 个答案:

答案 0 :(得分:0)

看看这个例子和概念,我认为你理想的是:

  1. 为数据源生成迭代器
  2. 将文件溢出到许多服务器上的许多大文件中,然后
  3. 合并结果。