如何创建包含200个观测值的随机样本的数据子集(从csv文件创建数据库)
Data columns (total 10 columns):
longitude 20640 non-null float64
latitude 20640 non-null float64
housing_median_age 20640 non-null float64
total_rooms 20640 non-null float64
total_bedrooms 20433 non-null float64
population 20640 non-null float64
households 20640 non-null float64
median_income 20640 non-null float64
median_house_value 20640 non-null float64
ocean_proximity 20640 non-null object
如何确定房屋价值(median_house_value)与其他变量之间的相关性并按降序显示。
df.corr()给了我所有的相关性。如何使其仅显示房屋中值?
答案 0 :(得分:0)
对于示例
df = df.sample(200)
对于相关性,只需做
df.corr()['median_house_value'].sort_values(ascending=False)