标签: scala csv apache-spark apache-kafka
我想使用Kafka在Spark上流式传输CSV文件。
所有文件都由另一个服务保存在hdfs上,我想使用kafka读取所有文件。类似于火花流的处理方式:
val event1 = spark .readStream .schema(test_raw) .option("newFilesOnly", "true") .option("header", "true") .option("sep", ",") .csv(stream_path)
答案 0 :(得分:0)
您要寻找的连接器可能就是这个:https://github.com/jcustenborder/kafka-connect-spooldir