Question

我正在处理大量文件，并且我想逐块处理这些文件，比方说，在每个批次中，我想分别处理每个50个文件。

如何使用Spark结构化流媒体？

我已经看到Jacek Laskowski（configurable-http-proxy）在类似的问题（https://stackoverflow.com/users/1305344/jacek-laskowski）中说，使用Spark结构化流技术是可能的，但是我找不到关于它的任何示例。

非常感谢

Answer 1

如果使用文件源：

maxFilesPerTrigger：每个触发器要考虑的新文件的最大数量（默认值：无最大值）

spark
  .readStream
  .format("json")
  .path("/path/to/files")
  .option("maxFilesPerTrigger", 50)
  .load

如果使用Kafka源码，则类似，但带有maxOffsetsPerTrigger选项。