我创建了一个外部配置单元,它代表了大量文件。我确实有分区来提高选择性能,但在一个分区中仍然存在大量安静的文件。
我的分区看起来像<TypeofFile>/<Year>/<Month>/*.gz
。在这个分区结构中,Hive扫描整个月的文件,即使我想搜索特定日期,因为我没有分区到特定日期。当我将日期添加为分区的一部分时,我收到too many partition
错误。
我有约会和时间所有文件名中的时间戳。 有没有办法让hive映射文件的子集。
INPUT__FILE__NAME不会限制映射器运行的文件数。
任何其他想法将受到高度赞赏。谢谢
答案 0 :(得分:0)
您可以在星期添加一个目录:
TypeofFile /年/月/周/ *。GZ