应用错误收集

我已经使用df.write.parquet（“ filePath”）作为Parquet文件保存了spark数据帧。现在，我想在此数据框列上应用Sklearn SVM操作，因为Spark ML / MLLib库中没有Multiclass SVM。我尝试使用spark.read.parquet（'FilePath'）读取保存的数据，然后使用toPandas（）将其转换为熊猫。但是，由于数据量巨大（81GB），因此从Spark数据帧到pandas数据帧的转换花费了太多时间。是否可以直接读取熊猫数据框中的已保存数据（保存为spark数据框）。如果不是，最好的继续前进的方法是什么？

读取数据帧将用过的火花保存为熊猫拼花文件

0 个答案: