我想通过运行Hadoop附带的TeraGen program(在 hadoop-examples.jar 中)生成一个数据集(用于我自己的“terasort”MapReduce作业):
hadoop jar /<full-path>/lib/hue/apps/oozie/examples/lib/hadoop-examples.jar teragen 1000 ./teragen
我没有得到符合格式的预期输出:
(10 bytes key) (10 bytes rowid) (78 bytes filler) \r \n
我收到的文件是:
JimGrayRIP
开头,后跟NUL
个字符(当我尝试粘贴它时,它会被截断; I uploaded a copy to Dropbox),OD OA
- 它们是EE FF
。可能出现什么问题? 这可能是编码问题吗?
可以在任何地方下载样本“terasort”数据集吗?