如何使用hadoop流和ruby映射器/ reducer设置分布式map-reduce作业?

时间:2012-04-30 05:33:36

标签: ruby hadoop hadoop-streaming

我可以使用带有输入文件的ruby运行本地映射器和reducer。

我不清楚分布式系统的行为。

对于生产系统,我在两台机器上设置了HDFS。我知道如果我在HDFS上存储一个大文件,它将在两台机器上都有一些块以允许并行化。我还需要在HDFS上存储实际的映射器和reducer文件(在这种情况下我的ruby文件)吗?

此外,我将如何实际运行流式作业,以便它在两个系统上以并行方式运行?

1 个答案:

答案 0 :(得分:1)

如果你要使用ruby(或Java以外的任何东西)编写的映射器/缩减器,你必须使用hadoop-streaming。在将作业发送到群集时,Hadoop流可以选择打包mapper / reducer文件。以下链接应该包含您要查找的内容。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html