Hive在查询外部表

时间:2015-11-12 01:20:07

标签: hadoop hive apache-pig

我创建了一个外部配置单元,它代表了大量文件。我确实有分区来提高选择性能,但在一个分区中仍然存在大量安静的文件。

我的分区看起来像<TypeofFile>/<Year>/<Month>/*.gz。在这个分区结构中,Hive扫描整个月的文件,即使我想搜索特定日期,因为我没有分区到特定日期。当我将日期添加为分区的一部分时,我收到too many partition错误。 我有约会和时间所有文件名中的时间戳。 有没有办法让hive映射文件的子集。
INPUT__FILE__NAME不会限制映射器运行的文件数。
任何其他想法将受到高度赞赏。谢谢

1 个答案:

答案 0 :(得分:0)

您可以在星期添加一个目录:

TypeofFile /年/月/周/ *。GZ