如何验证我在Hadoop上的任何工作?

时间:2013-02-11 18:50:46

标签: hadoop oozie

我目前正在研究一个问题,以解决Oozie Coordinator的问题,该问题将NameNode用于数据检查。作为案例研究,我发现雅虎每天的工作岗位超过15000个。因此,如果大多数作业都是数据相关的,那么它将成为NameNode的开销。我目前正在开发一个拥有3-4个节点的集群,基本上是我们自己的笔记本电脑。但我的教授问我如何能够如此大规模地验证我的工作。我必须向他提供一些分析,以证明我的解决方案能够按照这种规模运作。请建议我做同样的选择吗?

1 个答案:

答案 0 :(得分:1)

可以使用Mumak模拟Hadoop集群。 Mumak的代码在0.21版本中是there,而在主干中没有。{3}。这是一个贡献模块,因此Mumak周围没有太多活跃的工作或文档。这是同一个JIRA。另外,请查看Ankus项目,它引用了mrsimmrperf

这是一个现在没有太多关注的领域。但是,对于某人进行一些研究并获得一些代码来说,这将是一个很好的主题。