应用错误收集

Pyspark阅读腌制文件

时间：2016-03-26 04:10:37

标签： python apache-spark

我的数据以python 3 pickle文件集的形式提供。其中大多数都是pandas数据帧的序列化。

我想开始使用spark，因为我需要一台计算机可以拥有的更多内存和CPU。此外，我将HDFS用于分布式存储。

作为初学者，我没有找到相关信息来解释如何使用pickle文件作为输入文件。

它存在吗？如果没有，是否有任何解决方法？

非常感谢

0 个答案:

没有答案