我想设计一个具有应用程序浏览器的系统,该浏览器向Kafka发送消息。消费者应该以avro格式向HDFS写入事件。
这应该怎么样?
什么时候确实是收到消息的好时机?
我如何追加到hdfs文件?我读到了关于cdk的内容,它看起来像是一个好方向的东西。我不能的是如何/何时刷新记录。
有没有人有一个好榜样?
答案 0 :(得分:3)
您是否考虑过使用nathanmarz的storm以及Kafka。 Kafka有一个很好的集成支持,名为Kafka Spout
,可以从Kafka队列(主题)中提取数据,并提供给风暴拓扑。然后,您可以使用风暴bolt
轻松执行几乎任何操作,甚至可以写入HDFS。
对于样本,您可以通过以下项目快速查看,希望这会给您一些提醒
Kafka-hadoop loader
kafka-hadoop consumer
另请参阅this article,讨论Kafka与HDFS的交互