Question

我正在使用RandomWriter函数在Hadoop上运行排序示例。此特定函数使用Map / Reduce将10 gig（默认情况下）的随机数据/主机写入DFS。

bin/hadoop jar hadoop-*-examples.jar randomwriter <out-dir>.

任何人都可以告诉我如何更改RandomWriter功能的大小10GB？

Answer 1

该示例具有一些可配置的参数。这些参数在配置文件中提供给jar。要运行，请将其用作（提供配置文件）

bin/hadoop jar hadoop-*-examples.jar randomwriter <out-dir> [<configuration file>]

或使用参数

运行它

bin/hadoop jar hadoop-*-examples.jar randomwriter 
 -Dtest.randomwrite.bytes_per_map=<value> 
 -Dtest.randomwriter.maps_per_host=<value> <out-dir> [<configuration file>]

有关所有可配置参数的详细信息，请参阅：https://wiki.apache.org/hadoop/RandomWriter

Answer 2

在Hadoop 2上（至少在2.7.2版本上），属性现在是mapreduce.randomwriter.mapsperhost和mapreduce.randomwriter.bytespermap。

您可以在http://svn.apache.org/viewvc/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/RandomWriter.java?view=markup

上看到它们

所以最近的Hadoop 2版本的正确答案是

bin/hadoop jar hadoop-*-examples.jar randomwriter 
 -Dmapreduce.randomwriter.bytespermap=<value> 
 -Dmapreduce.randomwriter.mapsperhost=<value> <out-dir> [<configuration file>]

更改Hadoop上随机数据生成的大小

2 个答案: