Question

如何创建包含200个观测值的随机样本的数据子集（从csv文件创建数据库）

Data columns (total 10 columns):
longitude             20640 non-null float64
latitude              20640 non-null float64
housing_median_age    20640 non-null float64
total_rooms           20640 non-null float64
total_bedrooms        20433 non-null float64
population            20640 non-null float64
households            20640 non-null float64
median_income         20640 non-null float64
median_house_value    20640 non-null float64
ocean_proximity       20640 non-null object

如何确定房屋价值（median_house_value）与其他变量之间的相关性并按降序显示。

df.corr（）给了我所有的相关性。如何使其仅显示房屋中值？

Answer 1

对于示例

df = df.sample(200)

对于相关性，只需做

df.corr()['median_house_value'].sort_values(ascending=False)

熊猫：创建随机样本和相关矩阵

1 个答案: