我正在Jupyter笔记本中使用Pyspark(目前仅遵循教程,没有什么复杂的事情。)
在线,我在Jupyter中看到了许多渲染良好的DataFrame图片(使用display()
函数),但是当我在系统上使用它时,我看到的只是这样的行:DataFrame[id: string, name: string, age: bigint]
< / p>
我导入了以下库文件:
import pyspark
from functools import reduce
from graphframes import *
from IPython.display import display, HTML
from pyspark.context import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import col, lit, when
from pyspark.sql.session import SparkSession
如何很好地显示我的DataFrame?或者至少让我可以看到他们的内容?
答案 0 :(得分:1)
例如,如果您尝试使用df.show()
,则可以尝试执行edges.show()
或g.vertices.show()
,它应该呈现一个基本表。如果您正在寻找更好,更高级的数据可视化,则可以安装sparkmagic,它具有内置的可视化库(autoviz)
这是一个不错的示例notebook,展示了如何将pandas数据框与plotly结合起来以呈现一些不错的可视化效果。
希望这会有所帮助。
答案 1 :(得分:0)