将Spark DataFrame转换为Pandas DF

时间:2018-06-21 00:16:22

标签: pandas apache-spark apache-spark-sql

是否可以将Spark Df(而非RDD)转换为熊猫DF

我尝试了以下操作:

var some_df = Seq(
 ("A", "no"),
 ("B", "yes"),
 ("B", "yes"),
 ("B", "no")

 ).toDF(
"user_id", "phone_number")

代码:

%pyspark
pandas_df = some_df.toPandas()

错误:

 NameError: name 'some_df' is not defined

任何建议。

3 个答案:

答案 0 :(得分:7)

以下应该可以工作

let imageName = "yourImage.png"
let image = UIImage(named: imageName)
let imageView = UIImageView(image: image!)

imageView.frame = CGRect(x: containerView.frame.origin.x, 
                         y: containerView.frame.origin.y, 
                         width: containerView.frame.size.width, 
                         height: containerView.frame.size.height)
containerView.addSubview(imageView)

答案 1 :(得分:2)

在我的情况下,从spark数据框到pandas数据框的以下转换有效:

pandas_df = spark_df.select("*").toPandas()

答案 2 :(得分:2)

如果数据框较大,将spark数据框转换为熊猫可能会花费一些时间。因此,您可以使用以下内容:

spark.conf.set("spark.sql.execution.arrow.enabled", "true")

pd_df = df_spark.toPandas()

我已经在DataBricks中尝试过此操作。