从spark stream写入kafka最简单的方法是什么?

时间:2016-07-10 04:53:52

标签: apache-spark apache-kafka spark-streaming

我想从火花流数据写到kafka。 我知道我可以使用KafkaUtils来读取kafka。 但是,KafkaUtils不提供写入kafka的API。

我查看了past questionsample code

以上示例代码是写入kafka的最简单方法吗? 如果我采用上面的方式,我必须创建许多类......

你知道更简单的方法或图书馆来写信给kafka吗?

1 个答案:

答案 0 :(得分:1)

看看here

这篇博客文章基本上总结了您所提供的链接中不同版本的可能性。

如果我们直接看你的任务,我们可以做出几个假设:

  • 您的输出数据被划分为多个分区,这些分区可能(通常会)驻留在不同的计算机上
  • 您想使用标准Kafka Producer API
  • 将消息发送给Kafka
  • 您不希望在实际发送到Kafka之前在计算机之间传递数据

考虑到这些假设,您的解决方案非常有限:您是否必须为每个分区创建一个新的Kafka生产者并使用它来发送该分区的所有记录,或者您可以将此逻辑包装在某种Factory /中接收但基本操作将保持不变:您仍将为每个分区请求一个生产者对象,并使用它来发送分区记录。

我建议您继续使用提供的链接中的一个示例,代码非常简短,您找到的任何库很可能在幕后完成相同的操作。