Spark 版本>2。 在尝试更改大型 Pandas 数据帧以触发数据帧并写入 s3 时,出现错误:
Serialized task 880:0 was 665971191 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.
尝试重新分区增加分区,没有解决问题。
尝试了以下操作:
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
spark = (SparkSession.builder
.master("yarn")
.appName("myWork")
.config("spark.rpc.message.maxSize", "1024mb")
.getOrCreate())
还是有问题。 有什么建议吗?