应用错误收集

有什么好的方法可以将Spark RDD的内容读取到Dask结构中

时间：2018-11-06 10:07:04

标签： python pyspark dask dask-distributed fastparquet

当前，当处理复杂的嵌套结构时，Spark结构和Dask之间的集成似乎很麻烦。尽管将镶木地板加载是正在进行的大量工作（fastparquet，pyarrow）的一部分，但具体地转储Dask读取的具有嵌套结构的Spark Dataframe似乎并不十分可靠；

所以我的后续问题-假设我可以在Spark中进行一些转换并将DataFrame转换为包含自定义类对象的RDD；有没有一种方法可以使用自定义类对象可靠地转储Spark RDD的数据并在Dask集合中读取它？显然，您可以将rdd收集到python列表中，将其腌制，然后将其读取为常规数据结构，但这消除了加载大于内存数据集的机会。 dask可以使用类似火花酸洗的方法来装载分布式酸洗吗？

1 个答案:

答案 0 :(得分：0)

我通过以下操作解决了此问题

具有一个带有自定义对象列表作为行值的Spark RDD，我创建了rdd的一个版本，在其中使用cPickle.dumps将对象序列化为字符串。然后将此RDD转换为带有字符串列的简单DF，并将其写入拼花地板。 Dask能够读取结构简单的实木复合地板文件。然后用cPickle.loads反序列化以获得原始对象