使用TeraGen生成“terasort”输入数据集

时间:2014-11-17 14:03:57

标签: hadoop mapreduce

我想通过运行Hadoop附带的TeraGen program(在 hadoop-examples.jar 中)生成一个数据集(用于我自己的“terasort”MapReduce作业):

hadoop jar /<full-path>/lib/hue/apps/oozie/examples/lib/hadoop-examples.jar teragen 1000 ./teragen

我没有得到符合格式的预期输出:

(10 bytes key) (10 bytes rowid) (78 bytes filler) \r \n

我收到的文件是:

  • JimGrayRIP开头,后跟NUL个字符(当我尝试粘贴它时,它会被截断; I uploaded a copy to Dropbox),
  • 包含每100个字节重复的两个字符,但是 - 而不是OD OA - 它们是EE FF

可能出现什么问题? 这可能是编码问题吗?

可以在任何地方下载样本“terasort”数据集吗?

0 个答案:

没有答案