遗留的mapreduce库只运行一个分片

时间:2013-01-03 18:50:45

标签: google-app-engine mapreduce

我们正在使用"遗产" mapreduce库的(非PipelineAPI)版本:http://code.google.com/p/appengine-mapreduce/

问题是我们只能获得一个分片处理,即使对于具有> 150,000个实体的种类也是如此。我们尝试了不同的shard_count配置,例如4,16,128,但总是只有一个分片处理整个数据集,这非常慢。

我觉得我错过了一步(例如,创建索引或其他东西)。我们在其他应用程序上成功地使用了这个遗留库,它按预期运行多个分片。

交叉我的手指,有人知道一个随便的答案。

谢谢, Ĵ

1 个答案:

答案 0 :(得分:2)

发现它!

此问题出现在Python中,并且仅在您覆盖模型的默认种类名称时才会出现。

我已在mapreduce问题跟踪器上添加了一个补丁:http://code.google.com/p/appengine-mapreduce/issues/detail?id=154