我在linux服务器的文件夹中获取每日文件,我应该如何将这些添加到我的spark结构化流数据帧? (达美更新)
答案 0 :(得分:1)
你读过这份文件吗?
文件来源 - 将目录中写入的文件作为数据流读取。支持的文件格式为text,csv,json,parquet。有关更新的列表,请参阅DataStreamReader接口的文档,以及每种文件格式支持的选项。请注意,文件必须原子放置在给定目录中,在大多数文件系统中,可以通过文件移动操作来实现。
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources