我在 HDFS 中有一个文件夹,我们称之为 /data/users/ 在该文件夹中,每 10 天添加一个新的 csv 文件。基本上新文件将只包含活动用户,因此,例如
实际上,这些文件要大得多(每个文件约 800 万条记录,并且可能每 10 天减少 1000 条)。此外,较新的文件永远不会有旧文件中不存在的新记录。它只会有更少的记录。
我想使用此文件夹中的数据在 hive 中创建一个表。我现在正在做的是:
我担心创建外部表的步骤,因为数据真的很大,一段时间后该表会很大,我想知道是否有更有效的方法来执行此操作而不是每次加载文件夹中的所有文件。
所以我的问题是:将数据从 HDFS 文件夹摄取到 hive 表中的最佳方法是什么,鉴于此,该文件夹包含大量重复的文件。
答案 0 :(得分:0)
我建议按日期对数据进行分区,这样您每次读取表时都不必遍历所有记录。