熊猫:创建随机样本和相关矩阵

时间:2019-12-30 13:19:04

标签: pandas random correlation

如何创建包含200个观测值的随机样本的数据子集(从csv文件创建数据库)

Data columns (total 10 columns):
longitude             20640 non-null float64
latitude              20640 non-null float64
housing_median_age    20640 non-null float64
total_rooms           20640 non-null float64
total_bedrooms        20433 non-null float64
population            20640 non-null float64
households            20640 non-null float64
median_income         20640 non-null float64
median_house_value    20640 non-null float64
ocean_proximity       20640 non-null object

如何确定房屋价值(median_house_value)与其他变量之间的相关性并按降序显示。

df.corr()给了我所有的相关性。如何使其仅显示房屋中值?

1 个答案:

答案 0 :(得分:0)

对于示例

df = df.sample(200)

对于相关性,只需做

df.corr()['median_house_value'].sort_values(ascending=False)