我在Hadoop single-node cluster
10.04上安装了Ubuntu
0.20.2并使用我在本网站上找到的教程材料运行示例:
http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node
现在我正在尝试在Hadoop上运行Sort example
。它需要Sequential文件作为输入。有人可以help
我running the Sort example
吗? (或者给我一些关于如何生成Sequential文件作为输入的更多信息。)
提前谢谢..; - )
答案 0 :(得分:1)
要使用排序示例作为基准,请使用RandomWriter生成10GB /节点的随机数据。然后使用排序示例对数据进行排序。这提供了一种排序基准,可根据群集的大小进行扩展。默认情况下,排序示例使用1.0 *容量来减少数量,根据您的群集,您可以在1.75 *容量下看到更好的结果。
命令是:
$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile
第一个命令将在rand目录中生成未排序的数据。第二个命令将读取该数据,对其进行排序,并写入rand-sort目录。
答案 1 :(得分:0)
看看RandomWriter示例。这是一项使用随机数据输出序列文件的工作。关键是指定输出格式的job.setOutputFormat(SequenceFileOutputFormat.class)
行。