我正在处理大量文件,并且我想逐块处理这些文件,比方说,在每个批次中,我想分别处理每个50个文件。
如何使用Spark结构化流媒体?
我已经看到Jacek Laskowski(configurable-http-proxy)在类似的问题(https://stackoverflow.com/users/1305344/jacek-laskowski)中说,使用Spark结构化流技术是可能的,但是我找不到关于它的任何示例。
非常感谢
答案 0 :(得分:0)
如果使用文件源:
maxFilesPerTrigger:每个触发器要考虑的新文件的最大数量(默认值:无最大值)
spark
.readStream
.format("json")
.path("/path/to/files")
.option("maxFilesPerTrigger", 50)
.load
如果使用Kafka源码,则类似,但带有maxOffsetsPerTrigger
选项。