我有一个2个从属节点的迷你集群hadoop系统并试图对它进行一些测试。 系统已成功配置hadoop 2.6.0并且我已完成WordCount测试。除WordCount之外还有其他好的测试示例吗? (或许更实际的测试处理更大的数据)使用开源代码?我已经看过谷歌搜索中的大多数示例,但是hadoop版本太旧了,或者没有源代码来测试它们。我喜欢这个:使用Hadoop使用WikiHadoop分析完整的Wikipedia转储文件,尽管hadoop版本已经过时了。如果有人知道有更新的版本,将是伟大的(任何类似的将是好的)... TIA!
答案 0 :(得分:0)
我正在一个项目中工作,以举例说明Hadoop MapReduce框架中的不同功能。它仍在进行中,但使用现代API(Java和Hadoop)的WordCount作业有不同版本。
它包含 utils 以生成测试输入文件。但是只需进行少量更改,您就可以使用它来处理自己的测试文件。就像修改映射器中的后续行以使用空格或逗号分割一样。
String[] words = line.split("\t");