如何添加新文件以激发结构化流数据帧

时间:2018-01-10 20:30:00

标签: apache-spark apache-spark-sql spark-structured-streaming

我在linux服务器的文件夹中获取每日文件,我应该如何将这些添加到我的spark结构化流数据帧? (达美更新)

1 个答案:

答案 0 :(得分:1)

你读过这份文件吗?

  

文件来源 - 将目录中写入的文件作为数据流读取。支持的文件格式为text,csv,json,parquet。有关更新的列表,请参阅DataStreamReader接口的文档,以及每种文件格式支持的选项。请注意,文件必须原子放置在给定目录中,在大多数文件系统中,可以通过文件移动操作来实现。

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources