应用错误收集

巨大的文件作为mincemeat.py的数据源

时间：2013-07-29 09:14:31

标签： python mapreduce mincemeat

我打算在~100GB文件上使用mincemeat.py来执行map reduce任务。在看到来自mincemeat的示例代码之后，似乎我需要输入内存中的字典作为数据源。那么，提供我的庞大文件作为mincemeat的数据源的正确方法是什么？

链接到百果馅：https://github.com/michaelfairley/mincemeatpy

1 个答案:

答案 0 :(得分：0)

看看这个例子和概念，我认为你理想的是：

为数据源生成迭代器
将文件溢出到许多服务器上的许多大文件中，然后
合并结果。