应用错误收集

Kafka连接到目录中的读取文件

时间：2017-12-26 14:05:04

标签： hadoop apache-kafka

我将流媒体应用程序从水槽移动到kafka。所以需要帮助，因为我是kafka的新手。

我是一台Windows机器，IOT传感器在特定位置连续生成CSV文件，例如D：/ Folder。我想把它转移到hadoop集群。

文件夹中每天都会生成数百万个小文件。我想用kafka为任何新文件假脱机文件夹。我应该使用哪个Kafka连接来刷新新文件的目录。我读了关于kafka connect fileStream但我认为它只能用于1个文件。

1 个答案:

答案 0 :(得分：0)

使用Kafka-connect-spooldir。它支持读取文件夹中的所有csv文件

https://www.confluent.io/hub/jcustenborder/kafka-connect-spooldir https://docs.confluent.io/current/connect/kafka-connect-spooldir/