我的场景是 在我的项目中,我们每分钟从kafka获得200 msg,需要使用avro格式存储在hive表中。
如果我们使用insert scriptf或每条消息,我相信为每条消息插入需要很长时间。 是否有任何想法,对于这个流数据我们必须使用哪种方式插入具有良好性能的蜂巢。
感谢您的帮助。
答案 0 :(得分:0)
您是否有兴趣将Apache storm用作流式传输机制。这可以使用kafka-to-hive bolt使用风暴来完成,您可以轻松搜索。如果您愿意,请告诉我,我可以指出您正确的方向。
答案 1 :(得分:0)
为什么不创建外部表并将msgs发送到外部表位置。