Spark阅读python3 pickle作为输入

时间:2016-03-26 08:56:43

标签: python apache-spark serialization pyspark rdd

我的数据以Python 3腌制文件的形式提供。其中大多数都是Pandas的序列化DataFrames

我想开始使用Spark,因为我需要一台计算机可以拥有的更多内存和CPU。此外,我将使用HDFS进行分布式存储。

作为初学者,我没有找到解释如何使用pickle文件作为输入文件的相关信息。

它存在吗?如果没有,是否有任何解决方法?

非常感谢

1 个答案:

答案 0 :(得分:7)

很大程度上取决于数据本身。一般来说,当Spark必须读取大而不是可拆分文件时,它的表现并不是特别好。不过,您可以尝试使用binaryFiles方法并将其与标准Python工具结合使用。让我们从虚拟数据开始:

import tempfile
import pandas as pd
import numpy as np

outdir = tempfile.mkdtemp()

for i in range(5):
    pd.DataFrame(
        np.random.randn(10, 2), columns=['foo', 'bar']
    ).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来我们可以使用bianryFiles方法阅读它:

rdd = sc.binaryFiles(outdir)

并反序列化单个对象:

import pickle
from io import BytesIO

dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]

##         foo       bar
## 0 -0.162584 -2.179106
## 1  0.269399 -0.433037
## 2 -0.295244  0.119195

一个重要的注意事项是,与textFile等简单方法相比,它通常需要更多的内存。

另一种方法是仅并行化路径并使用可以直接从分布式文件系统(如hdfs3)读取的库。这通常意味着以更差的数据位置为代价降低内存需求。

考虑到这两个事实,通常最好以可以加载更高粒度的格式序列化数据。

注意

SparkContext提供了pickleFile方法,但该名称可能具有误导性。它可用于读取包含pickle对象的SequenceFiles,而不是普通的Python pickle。