当数据作为HTTP POST消息被摄取时,接收数据,处理数据和写入HDFS的选项有哪些?

时间:2016-02-28 11:56:45

标签: hadoop apache-kafka spark-streaming

我们从许多服务器接收数据作为HTTP POST消息。我们希望接收消息,进行一些预处理,然后将其写入HDFS。在实时数据流上运行的最佳选择是什么?

我读过的一些选项:Flume,Kafka,Spark流媒体。如何连接件?

1 个答案:

答案 0 :(得分:0)

很难说,因为这是一个太普遍的问题。我可以简要描述一下我们的管道,因为我们完全一样。我们有一些NodeJS HTTP服务器,它们将所有传入的请求发送给Kafka。然后我们使用Samza来预处理数据。 Samza从Kafka读取消息并将其写回Kafka(转到另一个主题)。最后,我们使用Camus将数据从Kafka传输到HDFS(Camus现已弃用)。您还可以使用Kafka Connect将数据从Kafka传输到HDFS。

Samza和Kafka都是(或者是)LinkedIn项目,因此很容易设置这个架构,Samza利用了一些Kafka功能。