HDFS中的文件夹结构应支持每年,每月和每日的数据处理。如果我们必须在过去16天/ 21天内进行处理,那么框架应该支持这一点。除了天数规格和开始日期之外,任何特殊天数,处理都应该在没有人为干预的情况下完成。 HDFS路径规范应该是自动化的。默认是每日处理文件。
该框架应与Map Reduce代码集成,因为它必须知道启动作业需要查看哪些文件夹。
电流: 例如:
/用户/项目名称/ sourcefiles /数据集名称/ YYYY / MM / DD /时间戳/文件名
但这并不能满足所有要求。例如,如果我们必须处理过去16天的数据。
“/ user / projectname / sourcefiles / datasetname / yyyy / mm / [01] [0-9] / timestamp / filename”此路径不起作用,因为第19天文件也将被包含。
您如何确保HDFS文件夹结构和Map Reduce作业的时间戳同步?
谢谢你的时间。
答案 0 :(得分:0)
如果您向MAP Reduce提供文件夹,它将处理该文件夹中的所有文件。您可以创建每周文件夹或每两周一次的文件夹。我希望这会有所帮助
答案 1 :(得分:0)
你可以:
使用路径通配 - 计算您希望处理的日期的路径字符串 - 请参阅此处http://books.google.co.il/books?id=Nff49D7vnJcC&pg=PA61&lpg=PA61&dq=path+globbing+pattern+hadoop&source=bl&ots=IihwWu8xXr&sig=g7DLXSqiJ7HRjQ8ZpxcAWJW0WV0&hl=en&sa=X&ei=Fp13Uey9AaS50QXJq4B4&ved=0CDAQ6AEwAQ#v=onepage&q=path%20globbing%20pattern%20hadoop&f=false
使用符号链接来帮助您拥有多个层次结构 - 仅在Java API中可用 - 请参阅此处http://blog.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/