在PubMed数据源中,我需要将输出推送到Kafka队列。每个源都可以被视为Kafka主题。 (我知道Kafka中的概念并使用Python探索Kafka)
我可以通过FireFTP查看PubMed数据。
任何人都可以帮助您继续前进吗?
答案 0 :(得分:0)
您将需要使用从FTP下载数据并将其假脱机到Kafka的服务。 Apache Flume就是这么做的。这很容易配置。您既可以使用FTP https://github.com/rstudio/shiny/issues/772#issuecomment-112919149的客户来源,也可以使用将文件下载到假脱机目录的cron作业,并从那里获取文件。 Flume有一个非常体面的Kafka Sink,允许连续写入kafka。