我正在尝试实施Uber的Petastorm数据集创建,该数据集将根据他们的Github page上的教程利用Spark创建一个镶木地板文件。
代码:
spark = SparkSession.builder.config('spark.driver.memory', '10g').master('local[4]').getOrCreate()
sc = spark.sparkContext
with materialize_dataset(spark=spark, dataset_url='file:///opt/data/hello_world_dataset',
schema=MySchema, row_group_size_mb=256):
logging.info('Building RDD...')
rows_rdd = sc.parallelize(ids)\
.map(row_generator)\ # Generator that yields lists of examples
.flatMap(lambda x: dict_to_spark_row(MySchema, x))
logging.info('Creating DataFrame...')
spark.createDataFrame(rows_rdd, MySchema.as_spark_schema()) \
.coalesce(10) \
.write \
.mode('overwrite') \
.parquet('file:///opt/data/hello_world_dataset')
现在,RDD代码可以成功执行,但是只有.createDataFrame
调用失败,并出现以下错误:
_pickle.PicklingError:无法序列化广播:OverflowError:无法序列化大于4GiB的字符串
这是我第一次使用Spark,因此我无法真正分辨出此错误是否源于Spark或Petastorm。
仔细研究此错误的其他解决方案(相对于Spark,不是Petastorm),我发现它可能与酸洗协议有关,但我无法确认,也没有找到改变酸洗的方法协议。
如何避免此错误?
答案 0 :(得分:1)
构建bluesummers答案
The master branch of spark right now fixes这个问题,所以我以相同的方式使用此代码修补转储功能,但更加安全。 [使用2.3.2测试]
from pyspark import broadcast
from pyspark.cloudpickle import print_exec
import pickle
def broadcast_dump(self, value, f):
try:
pickle.dump(value, f, pickle.HIGHEST_PROTOCOL)
except pickle.PickleError:
raise
except Exception as e:
msg = "Could not serialize broadcast: %s: %s" \
% (e.__class__.__name__, _exception_message(e))
print_exec(sys.stderr)
raise pickle.PicklingError(msg)
f.close()
broadcast.Broadcast.dump = broadcast_dump
答案 1 :(得分:0)
问题在于执行在不同进程之间传递数据的酸洗,默认酸洗协议是2,我们需要使用4来传递大于4GB的对象。
要更改酸洗协议,请在创建Spark会话之前,使用以下代码
from pyspark import broadcast
import pickle
def broadcast_dump(self, value, f):
pickle.dump(value, f, 4) # was 2, 4 is first protocol supporting >4GB
f.close()
return f.name
broadcast.Broadcast.dump = broadcast_dump
答案 2 :(得分:0)
我到处乱逛浪费了一天,您的回答又使我节省了一天