我是Kaggle房屋价格数据集的初学者,可以预测销售价格,只是进行数据探索以找出属性和销售价格(目标变量)之间的相关性。
我想出了一个销售价格相关矩阵,并在得出关于每个具有销售价格的独立属性的正确结论时遇到麻烦?
# saleprice correlation matrix
corrmat = df.corr()
corr_num = 15
cols_corr = corrmat.nlargest(corr_num, 'SalePrice')['SalePrice'].index
corr_mat_sales = np.corrcoef(df[cols_corr].values.T)
sns.set(font_scale=1.25)
fig, ax = plt.subplots(figsize=(24, 8))
hm = sns.heatmap(corr_mat_sales, cbar=True, cmap='PiYG', annot=True, square=True,
fmt='.2f', annot_kws={'size': 11}, yticklabels=cols_corr.values,
xticklabels=cols_corr.values)
fig.subplots_adjust(top=0.93, right=0.80)
fig.suptitle('SalePrice Correlation Matrix',
fontsize=14,
fontweight='bold')
并且该矩阵是否能够证明属性(从OverallQual到YearBuilt)与Saleprice高度相关,并且是在以后的模型中预测Salesprice的重要因素?谢谢。