关联数据分析

时间:2019-07-14 17:01:45

标签: python pandas

我正在处理数据集https://www.kaggle.com/new-york-city/nyc-property-sales 我已经计算出不同属性与售价之间的相互关系。

corr_matrix=dataset.corr()
corr_matrix["SALE PRICE"].sort_values(ascending=False)

给出输出

SALE PRICE                   1.000000
GROSS SQUARE FEET            0.455423
TOTAL UNITS                  0.125101
RESIDENTIAL UNITS            0.119698
TAX CLASS AT TIME OF SALE    0.091352
LAND SQUARE FEET             0.060183
COMMERCIAL UNITS             0.046006
AGE                          0.003537
SALE YEAR                   -0.002167
YEAR BUILT                  -0.003539
ZIP CODE                    -0.034170
BLOCK                       -0.061139
BOROUGH                     -0.074418

我需要了解这些数字的含义。我非常了解,价值越高,合作关系越强。我对消极的相互关系感到困惑。我的问题是:

1- BOROUGH SALE YEAR 之间的哪个属性密切相关?

2- AGE 是正相关中的最低值,我应该考虑为以后要使用的模型保留此属性吗?

0 个答案:

没有答案