我通过比较2个HIVE表并将结果存回HIVE来创建多个DataFrame。但是在保存DataFrame时需要很长时间才能保存。我正在尝试保存多个DataFrame,其中一个DataFrame有300,000条记录,其中包含大约10个变量但其他DataFrame并且不会太大。
我进一步调查了一下,发现每个DataFrame都有200个分区和35,000多个任务来将DataFrame存储回HIVE。
他们是否可以在保存DataFrame时减少任务数量,或者是他们优化此任务的任何其他方式。
任何帮助都将受到高度赞赏。
此致 Neeraj