从kafka写到hdfs(用cloudera cdk?)

时间:2013-10-24 08:56:56

标签: hdfs cloudera apache-kafka

我想设计一个具有应用程序浏览器的系统,该浏览器向Kafka发送消息。消费者应该以avro格式向HDFS写入事件。

这应该怎么样?

什么时候确实是收到消息的好时机?

我如何追加到hdfs文件?我读到了关于cdk的内容,它看起来像是一个好方向的东西。我不能的是如何/何时刷新记录。

有没有人有一个好榜样?

1 个答案:

答案 0 :(得分:3)

您是否考虑过使用nathanmarz的storm以及Kafka。 Kafka有一个很好的集成支持,名为Kafka Spout,可以从Kafka队列(主题)中提取数据,并提供给风暴拓扑。然后,您可以使用风暴bolt轻松执行几乎任何操作,甚至可以写入HDFS。

对于样本,您可以通过以下项目快速查看,希望这会给您一些提醒

Kafka-hadoop loader
kafka-hadoop consumer

另请参阅this article,讨论Kafka与HDFS的交互