应用错误收集

在PySpark中保存和读取numpy数组的最佳方法是什么？

时间：2019-04-26 19:46:32

标签： numpy pyspark

假设我有一个RDD，其中每个项目都是一个numpy数组：

rdd = sc.parallelize([np.asarray(1), np.asarray(2)])

将RDD保存到HDFS，然后再读回的推荐方法是什么？我知道saveAsTextFile方法，但是这实际上不是文本文件，对吗？其他方法，例如saveAsHadoopFile，saveAsNewAPIHadoopFile等似乎更适合键-值对的RDD，在此情况并非如此。

0 个答案:

没有答案