是否有一个很好的库可以帮助使用Hadoop Streaming和Python链接MapReduce作业?

时间:2012-12-17 19:01:09

标签: hadoop mapreduce machine-learning hadoop-streaming mrjob

This问题回答了我的问题的一部分,但并不完全。

如何运行管理此脚本的脚本,是否来自我的本地文件系统?像MrJob或Dumbo这样的东西到底在哪里?还有其他选择吗?

我正在尝试运行K-Means,其中每次迭代(MapReduce作业)输出将是使用Hadoop Streaming和Python的下一次迭代的输入。

我没有太多经验,任何信息都可以帮助我完成这项工作。谢谢!

4 个答案:

答案 0 :(得分:1)

如果你没有与Python紧密结合,那么你有一个非常好的选择。 Cloudera有一个名为“Crunch”的项目,它允许我们轻松创建MR作业的管道。它是一个java库,提供编写,测试和运行MapReduce管道的框架,并基于Google的FlumeJava库。

答案 1 :(得分:1)

还有另一个非python选项。 Graphlab是一个开源项目,用于在多核机器和集群上生成可扩展机器学习算法的免费实现。包中包含一个实现的快速可扩展版本的Kmeans ++算法。有关详细信息,请参阅Graphlab

enter image description here

可以找到graphlab的群集API here

答案 2 :(得分:0)

看起来像Spark的好应用程序它也有流选项,但我担心它只适用于Scala,但它们有Python API,绝对值得一试,它并不难用(在至少教程),它可以扩大规模。

答案 3 :(得分:0)

应该可以使用在Hadoop上运行的GraphLab Create(在Python中)来执行您描述的操作。 clustering toolkit可以帮助实现K-Means部分。您可以从本地计算机协调/编写脚本,并使用graphlab.deploy API在Hadoop上运行该作业。