应用错误收集

将流数据插入配置单元

时间：2017-08-17 16:19:19

标签： java apache-spark hive hadoop-streaming

我的场景是在我的项目中，我们每分钟从kafka获得200 msg，需要使用avro格式存储在hive表中。

如果我们使用insert scriptf或每条消息，我相信为每条消息插入需要很长时间。是否有任何想法，对于这个流数据我们必须使用哪种方式插入具有良好性能的蜂巢。

感谢您的帮助。

2 个答案:

答案 0 :(得分：0)

您是否有兴趣将Apache storm用作流式传输机制。这可以使用kafka-to-hive bolt使用风暴来完成，您可以轻松搜索。如果您愿意，请告诉我，我可以指出您正确的方向。

答案 1 :(得分：0)

为什么不创建外部表并将msgs发送到外部表位置。