Seaborn在apache齐柏林飞艇笔记本中缓慢绘制情节

时间:2019-09-27 20:46:12

标签: matplotlib seaborn apache-zeppelin

我目前正在尝试使用pyspark解释器和python 3.7.3在Zeppelin(0.8.1)笔记本中生成可视化图像。

使用seaborn(0.9.0)生成以下简单绘图需要大约5分钟的时间(整个过程中CPU使用率很高):

%pyspark
import seaborn as sns
import numpy as np
import pandas as pd

data = pd.DataFrame(np.random.rand(100,3))

sns.pairplot(data)

这种行为是非常不一致的,因为下面的图(需要更多的数据)立即被绘制

%pyspark
import seaborn as sns
import numpy as np
import pandas as pd

df = pd.DataFrame(data = np.random.rand(10000,2))

sns.lineplot(x = 0, y = 1, data = df)

我注意到,使用matplotlib(3.1.0)的速度通常比使用jupyter笔记本环境时快得多,而且几乎与以前一样快。

我已经阅读过有关问题ZEPPELIN-1894的信息,但是我也可以立即渲染所提到的散点图。

1 个答案:

答案 0 :(得分:0)

好,在发布here之后,解决方案是使用%spark.ipyspark解释器,这可能需要安装其他软件包:

pip install protobuf grpcio