Question

我想使用Kafka在Spark上流式传输CSV文件。

所有文件都由另一个服务保存在hdfs上，我想使用kafka读取所有文件。类似于火花流的处理方式：

 val event1 = spark
   .readStream
   .schema(test_raw)
   .option("newFilesOnly", "true")
   .option("header", "true") 
   .option("sep", ",") 
   .csv(stream_path)

Answer 1

您要寻找的连接器可能就是这个：https://github.com/jcustenborder/kafka-connect-spooldir

如何使用kafka读取CSV文件？

1 个答案: