我尝试使用hadoop terasort,它与teragen和teravalid配合得很好。
然后我想知道terasort是如何工作的。我认为terasort就像linux中的sort
命令一样。所以我制作了如下文字文件:
I have a pen.
my name is ~
I went to my lab yesterday
...
然后运行terasort但返回错误“read past eof”。
我看到了由teragen生成的“part-m-00000”,但是无法理解。
请告诉我terasort是如何工作的。
答案 0 :(得分:2)
Terasort不需要TB的输入数据,但它确实假设数据采用Teragen生成的格式。更具体地说:
答案 1 :(得分:1)
EOF表示文件在读取1个 tera 字节(随机分布的)数据之前完全耗尽
因此在尝试排序任何内容之前退出