标签: numpy pyspark
假设我有一个RDD,其中每个项目都是一个numpy数组:
rdd = sc.parallelize([np.asarray(1), np.asarray(2)])
将RDD保存到HDFS,然后再读回的推荐方法是什么?我知道saveAsTextFile方法,但是这实际上不是文本文件,对吗?其他方法,例如saveAsHadoopFile,saveAsNewAPIHadoopFile等似乎更适合键-值对的RDD,在此情况并非如此。
saveAsTextFile
saveAsHadoopFile
saveAsNewAPIHadoopFile