Java Vs脚本用于HDFS map / reduce

时间:2014-07-14 15:49:05

标签: hadoop scripting

我是一名DB人,所以java对我来说是新手。寻找使用HDFS的脚本语言,可能是我正在寻找的Python。但我在之前的一个问题中看到,你提到过#34; Heart Beat"如果我们使用脚本语言,则不会发生Name和Data节点之间的关系。为什么,我无法理解?正在编写我们的应用程序逻辑来处理脚本或java代码中的数据,以及它对心跳的影响如何?

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

如果你已经知道如何用它编码,那么Python是hadoop的不错选择。我已成功使用php和perl。 Hadoop框架的这一部分称为Streaming

For" Heart Beat"我相信你在考虑计数器。它们是用户定义的变量"只能递增。如果没有计数器增加10分钟,Hadoop将终止任务尝试。但是您不必担心这一点,因为系统计数器会自动递增。如果你有一个需要很长时间的工作,你仍然可以使用Python(Hadoop Streaming)的计数器,通过发送这样的东西到标准错误输出:

reporter:counter:MyGroup,MyCounter,1

有关使用Hadoop Streaming的计数器的更多信息,请参阅this