我正在处理大约10天的数据,这些数据将基于日期并使用df写入选项maxRecordsPerFile
进行分区。
在读取数据时使用了100%的群集资源,但是,在软写入开始后,将立即删除99%的内核,并且仅使用一个内核并占用1-2%的内存。
如何解决该问题,以便充分利用我的集群?
**如果我按日期执行PartitionBy时我没有记错,则仅应将特定日期的数据带入一个核心。也就是说,如果使用PartitionBy,则10天的数据应该在10个内核上运行,但是在使用maxRecordsPerFile
时,所有10天的数据都只能拉到一个内核上。