如何使用Spark结构化流逐块处理文件?

时间:2018-08-06 12:32:42

标签: scala apache-spark spark-structured-streaming

我正在处理大量文件,并且我想逐块处理这些文件,比方说,在每个批次中,我想分别处理每个50个文件。

如何使用Spark结构化流媒体?

我已经看到Jacek Laskowski(configurable-http-proxy)在类似的问题(https://stackoverflow.com/users/1305344/jacek-laskowski)中说,使用Spark结构化流技术是可能的,但是我找不到关于它的任何示例。

非常感谢

1 个答案:

答案 0 :(得分:0)

如果使用文件源:

maxFilesPerTrigger:每个触发器要考虑的新文件的最大数量(默认值:无最大值)

spark
  .readStream
  .format("json")
  .path("/path/to/files")
  .option("maxFilesPerTrigger", 50)
  .load

如果使用Kafka源码,则类似,但带有maxOffsetsPerTrigger选项。