Hadoop输入文件顺序

时间:2011-01-25 11:25:23

标签: hadoop

我将数据文件排列在名为date的文件夹中。目录结构

  • /数据/ 2011/03/03
  • /数据/ 2011/01/02

等等和每个目录里面有大约50个我需要解析的文件,我将hadoop的输入作为/ data / ** / ** / **,以便它可以解析所有文件。我的问题是

  1. 我如何要求hadoop订购输入。我需要按日期解析文件。
  2. 在解析特定日期的文件时,我需要预加载与该日期关联的数据结构,并且位于同一日期目录中。
  3. 由于 安库什

1 个答案:

答案 0 :(得分:1)

  1. 您无法订购输入。在“最坏情况”情况下,如果您拥有与在群集中运行任务相同数量的输入文件,则它们将在同一时刻并行处理。
  2. 也许您可以创建“FileInputFormat”的自定义实现,该实现读取所需的配置文件并执行您需要的操作?