将流数据插入配置单元

时间:2017-08-17 16:19:19

标签: java apache-spark hive hadoop-streaming

我的场景是 在我的项目中,我们每分钟从kafka获得200 msg,需要使用avro格式存储在hive表中。

如果我们使用insert scriptf或每条消息,我相信为每条消息插入需要很长时间。 是否有任何想法,对于这个流数据我们必须使用哪种方式插入具有良好性能的蜂巢。

感谢您的帮助。

2 个答案:

答案 0 :(得分:0)

您是否有兴趣将Apache storm用作流式传输机制。这可以使用kafka-to-hive bolt使用风暴来完成,您可以轻松搜索。如果您愿意,请告诉我,我可以指出您正确的方向。

答案 1 :(得分:0)

为什么不创建外部表并将msgs发送到外部表位置。