应用错误收集

Hive可以定期将增量数据附加或插入到hdfs中的同一个表文件中吗？

时间：2017-11-08 07:45:12

标签： hadoop apache-spark hive hdfs spark-streaming

我每分钟从Spark流（从Flume执行）加载网络捕获的数据，然后根据ip地址聚合数据，最后保存到Hive。为了加快速度，我使用ip地址分区创建Hive ORC表，效果很好。唯一的问题是每分钟创建许多（取决于多少个ip地址）kb小文件，现在我使用“ALTER TABLE ... CONCATENATE;”手动合并它们，但我认为它可能更容易，所以想问一下是否有解决方案可以逐步将新数据合并/附加到第一分钟表文件，而不是每分钟创建新的表文件。任何建议表示赞赏！

1 个答案:

答案 0 :(得分：0)

我放弃，看起来没有直接解决方案，因为Hive无法将内容附加到现有数据文件以进行性能考虑。现在我的替代方案仍然是每周连接它，问题是查询将被错误消息（抱怨它无法找到数据文件）在它进行连接时被打破，因此会产生很大的业务影响。现在我想用HBase或Kudu取代Hive，它更灵活，可以提供更新/删除操作。