我有一个相当大的数据集,大约有25万行和140列。我只是从数据框中获取数字,所以我只剩下大约40列。
df = df.select_dtypes(exclude=['object'])
现在,我正在尝试运行此代码。
sns.set(style="ticks", color_codes=True)
df1 = df.head(1000)
g = sns.pairplot(df1)
# with regression
df1 = df.head(1000)
sns.pairplot(df1, kind="reg")
plt.show()
# without regression
df1 = df.head(1000)
sns.pairplot(df1, kind="scatter")
plt.show()
问题在于,所有这三个情节都运行很长时间(每个情节长达30分钟),而三个情节都没有完成(每个情节都好,我要选择一大堆代码并按Shift + Alt + PyCharm中的E)。我必须终止PyCharm,然后将其重新启动3倍。这些图都来自下面的链接,我想这里的很多人以前见过很多次。