我目前正在尝试使用pyspark解释器和python 3.7.3在Zeppelin(0.8.1)笔记本中生成可视化图像。
使用seaborn(0.9.0)生成以下简单绘图需要大约5分钟的时间(整个过程中CPU使用率很高):
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
data = pd.DataFrame(np.random.rand(100,3))
sns.pairplot(data)
这种行为是非常不一致的,因为下面的图(需要更多的数据)立即被绘制
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.rand(10000,2))
sns.lineplot(x = 0, y = 1, data = df)
我注意到,使用matplotlib(3.1.0)的速度通常比使用jupyter笔记本环境时快得多,而且几乎与以前一样快。
我已经阅读过有关问题ZEPPELIN-1894的信息,但是我也可以立即渲染所提到的散点图。