标签: python apache-spark
我的数据以python 3 pickle文件集的形式提供。其中大多数都是pandas数据帧的序列化。
我想开始使用spark,因为我需要一台计算机可以拥有的更多内存和CPU。此外,我将HDFS用于分布式存储。
作为初学者,我没有找到相关信息来解释如何使用pickle文件作为输入文件。
它存在吗?如果没有,是否有任何解决方法?
非常感谢