Hive可以定期将增量数据附加或插入到hdfs中的同一个表文件中吗?

时间:2017-11-08 07:45:12

标签: hadoop apache-spark hive hdfs spark-streaming

我每分钟从Spark流(从Flume执行)加载网络捕获的数据,然后根据ip地址聚合数据,最后保存到Hive。为了加快速度,我使用ip地址分区创建Hive ORC表,效果很好。唯一的问题是每分钟创建许多(取决于多少个ip地址)kb小文件,现在我使用“ALTER TABLE ... CONCATENATE;”手动合并它们,但我认为它可能更容易,所以想问一下是否有解决方案可以逐步将新数据合并/附加到第一分钟表文件,而不是每分钟创建新的表文件。任何建议表示赞赏!

1 个答案:

答案 0 :(得分:0)

我放弃,看起来没有直接解决方案,因为Hive无法将内容附加到现有数据文件以进行性能考虑。现在我的替代方案仍然是每周连接它,问题是查询将被错误消息(抱怨它无法找到数据文件)在它进行连接时被打破,因此会产生很大的业务影响。现在我想用HBase或Kudu取代Hive,它更灵活,可以提供更新/删除操作。