我正在尝试解决Kaggle提出的“房屋价格”挑战,因此我停留在相关矩阵上,因为它根本无法显示我想要的所有列。最初,显然是因为列数很大,所以我这样做了:
df = df_data[['SalePrice', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities']].copy()
corrmax = df.corr()
f, ax = plt.subplots(figsize=(16,12))
sns.heatmap(corrmax, annot = True)
然后,由于某种原因,结果是仅包含SalePrice,MSSubClass,LotFrontage和LotArea的热图。谁能帮我吗?
答案 0 :(得分:0)
如果您分析房价House Prices的数据集,则大约有21-23个分类变量“ MSZoning”,“ Alley” corr()矩阵仅显示它们在数值或非分类变量之间的关系
corrmax = df.corr()
如果要查找分类变量和非分类变量之间的关系,请使用Spearman correlation matrix
您将在下面的链接中找到帮助...
An overview of correlation measures between categorical and continuous variables
Correlation between a nominal (IV) and a continuous (DV) variable