应用错误收集

时间：2013-04-24 04:04:39

标签： hadoop mapreduce

HDFS中的文件夹结构应支持每年，每月和每日的数据处理。如果我们必须在过去16天/ 21天内进行处理，那么框架应该支持这一点。除了天数规格和开始日期之外，任何特殊天数，处理都应该在没有人为干预的情况下完成。 HDFS路径规范应该是自动化的。默认是每日处理文件。

该框架应与Map Reduce代码集成，因为它必须知道启动作业需要查看哪些文件夹。

电流：例如：

/用户/项目名称/ sourcefiles /数据集名称/ YYYY / MM / DD /时间戳/文件名

但这并不能满足所有要求。例如，如果我们必须处理过去16天的数据。

“/ user / projectname / sourcefiles / datasetname / yyyy / mm / [01] [0-9] / timestamp / filename”此路径不起作用，因为第19天文件也将被包含。

您如何确保HDFS文件夹结构和Map Reduce作业的时间戳同步？

谢谢你的时间。

答案 0 :(得分：0)

如果您向MAP Reduce提供文件夹，它将处理该文件夹中的所有文件。您可以创建每周文件夹或每两周一次的文件夹。我希望这会有所帮助

答案 1 :(得分：0)

你可以：