Question

我正在Jupyter笔记本中使用Pyspark（目前仅遵循教程，没有什么复杂的事情。）

在线，我在Jupyter中看到了许多渲染良好的DataFrame图片（使用display()函数），但是当我在系统上使用它时，我看到的只是这样的行：DataFrame[id: string, name: string, age: bigint] < / p>

我导入了以下库文件：

import pyspark

from functools import reduce
from graphframes import *
from IPython.display import display, HTML
from pyspark.context import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import col, lit, when
from pyspark.sql.session import SparkSession

如何很好地显示我的DataFrame？或者至少让我可以看到他们的内容？

Answer 1

例如，如果您尝试使用df.show()，则可以尝试执行edges.show()或g.vertices.show()，它应该呈现一个基本表。如果您正在寻找更好，更高级的数据可视化，则可以安装sparkmagic，它具有内置的可视化库（autoviz）

这是一个不错的示例notebook，展示了如何将pandas数据框与plotly结合起来以呈现一些不错的可视化效果。

希望这会有所帮助。

Answer 2

您好意思是HTML表格或图表吗？如果您要使用HTML表格，则无需做任何特殊的事情，因为默认情况下，pandas数据帧被渲染为漂亮的HTML表格

如果您想要的是图表，则必须使用其他图表库或使用sparkmagic / autoviz。

如何在Jupyter中很好地显示Pyspark DataFrames？

2 个答案: