Question

我在Hadoop single-node cluster 10.04上安装了Ubuntu 0.20.2并使用我在本网站上找到的教程材料运行示例：

现在我正在尝试在Hadoop上运行Sort example。它需要Sequential文件作为输入。有人可以help我running the Sort example吗？（或者给我一些关于如何生成Sequential文件作为输入的更多信息。）

提前谢谢..; - ）

Answer 1

要使用排序示例作为基准，请使用RandomWriter生成10GB /节点的随机数据。然后使用排序示例对数据进行排序。这提供了一种排序基准，可根据群集的大小进行扩展。默认情况下，排序示例使用1.0 *容量来减少数量，根据您的群集，您可以在1.75 *容量下看到更好的结果。

命令是：

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

第一个命令将在rand目录中生成未排序的数据。第二个命令将读取该数据，对其进行排序，并写入rand-sort目录。

Answer 2

看看RandomWriter示例。这是一项使用随机数据输出序列文件的工作。关键是指定输出格式的job.setOutputFormat(SequenceFileOutputFormat.class)行。