我将流媒体应用程序从水槽移动到kafka。所以需要帮助,因为我是kafka的新手。
我是一台Windows机器,IOT传感器在特定位置连续生成CSV文件,例如D:/ Folder。我想把它转移到hadoop集群。
文件夹中每天都会生成数百万个小文件。我想用kafka为任何新文件假脱机文件夹。 我应该使用哪个Kafka连接来刷新新文件的目录。 我读了关于kafka connect fileStream但我认为它只能用于1个文件。
答案 0 :(得分:0)
使用Kafka-connect-spooldir。它支持读取文件夹中的所有csv文件
https://www.confluent.io/hub/jcustenborder/kafka-connect-spooldir https://docs.confluent.io/current/connect/kafka-connect-spooldir/