Question

我尝试使用hadoop terasort，它与teragen和teravalid配合得很好。然后我想知道terasort是如何工作的。我认为terasort就像linux中的sort命令一样。所以我制作了如下文字文件：

I have a pen.
my name is ~
I went to my lab yesterday
...

然后运行terasort但返回错误“read past eof”。

我看到了由teragen生成的“part-m-00000”，但是无法理解。

请告诉我terasort是如何工作的。

Answer 1

Terasort不需要TB的输入数据，但它确实假设数据采用Teragen生成的格式。更具体地说：

Answer 2

EOF表示文件在读取1个 tera 字节（随机分布的）数据之前完全耗尽

因此在尝试排序任何内容之前退出