将数据从单独的kafka集群加载到Samza?

时间:2017-09-21 20:53:03

标签: apache-kafka apache-samza

我正在尝试创建一个Samza工作,它与我能做到的维基百科示例工作非常相似。但是在“WikipediaFeed”对象中,我试图从不同的Kafka代理获取数据,而不是在启动Hello-Samza网格时运行的Kafka代理。

我是否必须在“WikipediaFeed”对象中创建一个线程安全的Kafka使用者来使用来自不同Kafka群集的数据,或者还有另一种我没有看到的方式?

编辑1: 这是他们的维基百科示例的链接。 https://github.com/apache/samza-hello-samza/tree/master/src/main

由于

1 个答案:

答案 0 :(得分:1)

在您的示例中,您需要更改此配置(https://github.com/apache/samza-hello-samza/blob/master/src/main/config/wikipedia-feed.properties):

CollapsingToolbarLayout

使用前端Kafka群集更改配置 并将您的主题添加到以“,”

分隔的task.inputs中

编辑: 为了清楚起见,您可以将Samza部署到群集1中,并从另一个群集中使用Kafka主题。您需要更改Samza属性中的配置。

要查看更多信息:Samza config

然后,如果您需要在处理后将消息发送到另一个Kafka群集,则需要在配置中创建另一个系统。

查看更多信息:https://samza.apache.org/learn/documentation/0.13/api/overview.html