terasort如何运作

时间:2017-11-01 08:16:47

标签: hadoop terasort

我尝试使用hadoop terasort,它与teragen和teravalid配合得很好。 然后我想知道terasort是如何工作的。我认为terasort就像linux中的sort命令一样。所以我制作了如下文字文件:

I have a pen.
my name is ~
I went to my lab yesterday
...

然后运行terasort但返回错误“read past eof”。

我看到了由teragen生成的“part-m-00000”,但是无法理解。

请告诉我terasort是如何工作的。

2 个答案:

答案 0 :(得分:2)

Terasort不需要TB的输入数据,但它确实假设数据采用Teragen生成的格式。更具体地说:

  • (10字节键)(10字节rowid)(78字节填充)\ r \ n
  • 密钥是集合中的随机字符' ' ..'〜'。
  • rowid是右对齐的行id作为int。
  • 填充物由7个10个字符组成,来自' A'到' Z'。

答案 1 :(得分:1)

EOF表示文件在读取1个 tera 字节(随机分布的)数据之前完全耗尽

因此在尝试排序任何内容之前退出