我可以使用带有输入文件的ruby运行本地映射器和reducer。
我不清楚分布式系统的行为。
对于生产系统,我在两台机器上设置了HDFS。我知道如果我在HDFS上存储一个大文件,它将在两台机器上都有一些块以允许并行化。我还需要在HDFS上存储实际的映射器和reducer文件(在这种情况下我的ruby文件)吗?
此外,我将如何实际运行流式作业,以便它在两个系统上以并行方式运行?
答案 0 :(得分:1)
如果你要使用ruby(或Java以外的任何东西)编写的映射器/缩减器,你必须使用hadoop-streaming。在将作业发送到群集时,Hadoop流可以选择打包mapper / reducer文件。以下链接应该包含您要查找的内容。