如何将scala数据帧转换为python数据帧:Spark(Zeppelin)

时间:2016-07-07 05:36:44

标签: scala pandas matplotlib apache-spark pyspark

我正在尝试绘制火花数据框的直方图:

    val df2 = sqlContext.jsonFile("s3://testData/test.gz") 
    df2.show()

    val result1  = df2.withColumn("visited", explode($"visited")).cache  

    val query = result1.groupBy($"requestId", $"visited.placeName") 
                            .agg(avg($"visited.rating".cast("double")).alias("tmp")) 
                            .groupBy($"placeName").agg(avg($"tmp").alias("Average Rating")) 

    query.show()                        
    query.registerTempTable("query")

    %pyspark 

df = sqlContext.table("query").select()
df.printSchema
pdf = df.toPandas()

    import pandas as pd
    import matplotlib.pyplot as plt
    pd.options.display.mpl_style = 'default'

    pdf.hist()

但我收到了错误。我正在使用spark 1.5可以有人告诉我这里我做错了什么吗?我正在将scala数据框转换为python pandas。那是错的吗?如何查看结果值的直方图?我是否需要将完整的内容更改为python?

0 个答案:

没有答案