pyspark - pyspark 将大熊猫数据帧更改为 pyspark 数据帧并写入 s3 出错

Spark 版本>2。在尝试更改大型 Pandas 数据帧以触发数据帧并写入 s3 时，出现错误：

Serialized task 880:0 was 665971191 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.

尝试重新分区增加分区，没有解决问题。

通读这个 Pyspark: Serialized task exceeds max allowed. Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values

尝试了以下操作：

from pyspark.conf import SparkConf
from pyspark.sql import SparkSession


spark = (SparkSession.builder
        .master("yarn")
        .appName("myWork") 
        .config("spark.rpc.message.maxSize", "1024mb")
        .getOrCreate())

还是有问题。有什么建议吗？

pyspark 将大熊猫数据帧更改为 pyspark 数据帧并写入 s3 出错

0 个答案: