将PubMed数据推送到Kafka

时间:2015-10-07 10:28:20

标签: python ftp apache-kafka pubmed kafka-python

在PubMed数据源中,我需要将输出推送到Kafka队列。每个源都可以被视为Kafka主题。 (我知道Kafka中的概念并使用Python探索Kafka)

我可以通过FireFTP查看PubMed数据。

任何人都可以帮助您继续前进吗?

1 个答案:

答案 0 :(得分:0)

您将需要使用从FTP下载数据并将其假脱机到Kafka的服务。 Apache Flume就是这么做的。这很容易配置。您既可以使用FTP https://github.com/rstudio/shiny/issues/772#issuecomment-112919149的客户来源,也可以使用将文件下载到假脱机目录的cron作业,并从那里获取文件。 Flume有一个非常体面的Kafka Sink,允许连续写入kafka。