标签: apache-spark spark-streaming
我正在运行一个火花流式传输过程,我在n秒后获得一批数据。我正在使用重新分区来扩展应用程序。由于重新分区大小已修复,因此当批量大小非常小时,我们会收到大量小文件。无论如何,我可以根据输入批量大小更改分区逻辑,以避免大量小文件。