读取数据帧将用过的火花保存为熊猫拼花文件

时间:2018-12-20 05:58:26

标签: pandas apache-spark dataframe pyspark

我已经使用df.write.parquet(“ filePath”)作为Parquet文件保存了spark数据帧。现在,我想在此数据框列上应用Sklearn SVM操作,因为Spark ML / MLLib库中没有Multiclass SVM。我尝试使用spark.read.parquet('FilePath')读取保存的数据,然后使用toPandas()将其转换为熊猫。但是,由于数据量巨大(81GB),因此从Spark数据帧到pandas数据帧的转换花费了太多时间。是否可以直接读取熊猫数据框中的已保存数据(保存为spark数据框)。如果不是,最好的继续前进的方法是什么?

0 个答案:

没有答案