pyspark 将大熊猫数据帧更改为 pyspark 数据帧并写入 s3 出错

时间:2021-03-16 23:54:47

标签: pyspark

Spark 版本>2。 在尝试更改大型 Pandas 数据帧以触发数据帧并写入 s3 时,出现错误:

Serialized task 880:0 was 665971191 bytes, which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.

尝试重新分区增加分区,没有解决问题。

通读这个 Pyspark: Serialized task exceeds max allowed. Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values

尝试了以下操作:

from pyspark.conf import SparkConf
from pyspark.sql import SparkSession


spark = (SparkSession.builder
        .master("yarn")
        .appName("myWork") 
        .config("spark.rpc.message.maxSize", "1024mb")
        .getOrCreate())

还是有问题。 有什么建议吗?

0 个答案:

没有答案