我的任务是创建一个基本的ETL应用程序。我们有一个远程位置,每个月都会删除csv文件,它们大约是。 250MB的大小。
应用程序将导入csv - >应用业务逻辑(如果需要) - >插入SQLServer表。
我一直在考虑使用Kafka。虽然,我是相当新的,我无法找到一个连接器,将读取导入csv文件到Kafka。我在github上看到了一些项目,但是它们似乎已经过时了,而且我在UnsupportedOperationExceptions上遇到了错误
任何人都可以指出正确的方向吗?我现在正在考虑使用confluent_kafka
编写连接器答案 0 :(得分:3)
如果您想使用Kafka(并且根据您的要求不清楚您需要),那么kafka-connect-spooldir是您需求的良好连接器。 This article显示了正在使用的设置和示例。
免责声明:我为Confluent工作,我写了这篇文章:)