在Hadoop上运行Sort示例(单节点集群)

时间:2011-03-31 14:04:25

标签: sorting ubuntu hadoop ubuntu-10.04

我在Hadoop single-node cluster 10.04上安装了Ubuntu 0.20.2并使用我在本网站上找到的教程材料运行示例:

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

现在我正在尝试在Hadoop上运行Sort example。它需要Sequential文件作为输入。有人可以helprunning the Sort example吗? (或者给我一些关于如何生成Sequential文件作为输入的更多信息。)

提前谢谢..; - )

2 个答案:

答案 0 :(得分:1)

Running Sort Benchmark

要使用排序示例作为基准,请使用RandomWriter生成10GB /节点的随机数据。然后使用排序示例对数据进行排序。这提供了一种排序基准,可根据群集的大小进行扩展。默认情况下,排序示例使用1.0 *容量来减少数量,根据您的群集,您可以在1.75 *容量下看到更好的结果。

命令是:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

第一个命令将在rand目录中生成未排序的数据。第二个命令将读取该数据,对其进行排序,并写入rand-sort目录。

答案 1 :(得分:0)

看看RandomWriter示例。这是一项使用随机数据输出序列文件的工作。关键是指定输出格式的job.setOutputFormat(SequenceFileOutputFormat.class)行。