运行Disco map-reduce存储在Discodex中的数据

时间:2011-07-08 18:05:40

标签: python mapreduce disco

我有大量需要提供随机访问的静态数据。因为,我正在使用Disco来消化它,我正在Disco分布式文件系统上使用令人印象深刻的Discodex(密钥,值)存储。但是,迪斯科的文档相当稀疏,所以我无法弄清楚如何使用我的Discodex索引作为迪斯科作业的输入。

这甚至可能吗?如果是这样,我该怎么做?

或者,我正在考虑这个错误?将该数据作为文本文件存储在DDFS上会更好吗?

2 个答案:

答案 0 :(得分:0)

没关系,看来我正在做的事情并不是真的要做。这可能是可能的,但仅仅使用语义DDFS标记来引用数据blob会更好。

Discodex的正确用例是通过Disco map-reduce程序存储索引构造,该程序不需要是另一个map-reduce程序的输入。

答案 1 :(得分:0)

您还可以使用DiscoDB存储一个作业的输出,然后将其用作另一个作业的输入。 DiscoDB教程就是一个很好的例子。

http://discoproject.org/doc/howto/discodb.html