如何使用kafka读取CSV文件?

时间:2019-04-05 09:53:51

标签: scala csv apache-spark apache-kafka

我想使用Kafka在Spark上流式传输CSV文件。

所有文件都由另一个服务保存在hdfs上,我想使用kafka读取所有文件。类似于火花流的处理方式:

 val event1 = spark
   .readStream
   .schema(test_raw)
   .option("newFilesOnly", "true")
   .option("header", "true") 
   .option("sep", ",") 
   .csv(stream_path)

1 个答案:

答案 0 :(得分:0)

您要寻找的连接器可能就是这个:https://github.com/jcustenborder/kafka-connect-spooldir