我有一个可以经常生成活动的移动应用,并且有数百万用户将使用此应用。 捕获这些事件并将它们保存到hdfs以供以后分析的最佳方法是什么?
答案 0 :(得分:1)
正如我从您的标签中假设的那样,您倾向于使用Kafka和Flume以及Kafka源和HDFS接收器。您的移动应用程序可以将数据发布到Kafka主题,然后使用Kafka源或Kafka通道(如果您不需要使用拦截器),您可以使用这些事件并写入HDFS接收器。 Kafka具有可扩展性,因此您无需担心处理大量事件。但是,我建议你使用HBase作为数据存储。它允许您稍后使用O(1)次访问每个事件。这可以通过HBase Sink完成。从Cloudera博客查看此article。