应用错误收集

如何使用hadoop流和ruby映射器/ reducer设置分布式map-reduce作业？

时间：2012-04-30 05:33:36

标签： ruby hadoop hadoop-streaming

我可以使用带有输入文件的ruby运行本地映射器和reducer。

我不清楚分布式系统的行为。

对于生产系统，我在两台机器上设置了HDFS。我知道如果我在HDFS上存储一个大文件，它将在两台机器上都有一些块以允许并行化。我还需要在HDFS上存储实际的映射器和reducer文件（在这种情况下我的ruby文件）吗？

此外，我将如何实际运行流式作业，以便它在两个系统上以并行方式运行？

1 个答案:

答案 0 :(得分：1)

如果你要使用ruby（或Java以外的任何东西）编写的映射器/缩减器，你必须使用hadoop-streaming。在将作业发送到群集时，Hadoop流可以选择打包mapper / reducer文件。以下链接应该包含您要查找的内容。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html