应用错误收集

如何使用Kafka Connect与现有文件和新文件（监视文件夹）

时间：2017-03-02 22:14:59

标签： apache-kafka-connect

我想使用Apache Kafka Connect来处理Linux服务器上的文件。

使用案例：我在子文件夹中有一个包含200万个XML文件的文件夹。我想按照他们的时间戳将它们全部推送到Apache Kafka。然后我想查看新文件的文件夹和子文件夹，并按顺序将它们推送到Kafka。

这可能吗？或者我是否需要拆分这个过程？插件是否可用？

1 个答案:

答案 0 :(得分：5)

查看spooldir连接器插件https://github.com/jcustenborder/kafka-connect-spooldir

如果这不可行，请查看connectors.confluent.io以查看来自社区的其他插件。

订购保证将基于您的分区策略。如果您需要总排序，请使用一个分区。