如何在Jupyter中很好地显示Pyspark DataFrames?

时间:2019-10-25 09:34:26

标签: python jupyter-notebook jupyter

我正在Jupyter笔记本中使用Pyspark(目前仅遵循教程,没有什么复杂的事情。)

在线,我在Jupyter中看到了许多渲染良好的DataFrame图片(使用display()函数),但是当我在系统上使用它时,我看到的只是这样的行:DataFrame[id: string, name: string, age: bigint] < / p>

picture of my Jupyter interface, with examples using both display and print, none of which show the contents of the DataFrame)

我导入了以下库文件:

import pyspark

from functools import reduce
from graphframes import *
from IPython.display import display, HTML
from pyspark.context import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import col, lit, when
from pyspark.sql.session import SparkSession

如何很好地显示我的DataFrame?或者至少让我可以看到他们的内容?

2 个答案:

答案 0 :(得分:1)

例如,如果您尝试使用df.show(),则可以尝试执行edges.show()g.vertices.show(),它应该呈现一个基本表。如果您正在寻找更好,更高级的数据可视化,则可以安装sparkmagic,它具有内置的可视化库(autoviz

这是一个不错的示例notebook,展示了如何将pandas数据框与plotly结合起来以呈现一些不错的可视化效果。

希望这会有所帮助。

答案 1 :(得分:0)

您好意思是HTML表格或图表吗?如果您要使用HTML表格,则无需做任何特殊的事情,因为默认情况下,pandas数据帧被渲染为漂亮的HTML表格

enter image description here

如果您想要的是图表,则必须使用其他图表库或使用sparkmagic / autoviz。