可视化目标中特定类别的相关性

时间:2018-10-04 18:15:54

标签: pandas machine-learning correlation data-science data-analysis

我有一个包含四个类的数据集,这意味着目标变量具有4个不同的类(例如0、1、2、3) 我们知道,使用此代码段,我们可以通过熊猫获得与目标最相关的特征。

# Find correlations with the target and sort
correlations = train.corr()['Target'].sort_values()
# Display correlations
print('Most Positive Correlations:\n', correlations.tail(15))
print('\nMost Negative Correlations:\n', correlations.head(15))

但是我的问题是,我需要获得与特定目标类别最相关的功能。例如,我想了解哪些功能对目标类别3有较高的影响(相关)。我已经尝试过了,

correlations = train.corr()[(train['Target'] == 3)].sort_values()

但是它给出了这个错误

IndexingError: Unalignable boolean Series provided as indexer (index of the 
boolean Series and of the indexed object do not match

my expected output

1 个答案:

答案 0 :(得分:0)

您没有给我们任何帮助,但我假设您的问题是在掩蔽之前致电.corr()。您需要致电:

correlations = train[(train['Target'] == 3)].corr().sort_values()

编辑:

更优雅的解决方案可能是groupby。尝试以下方法:

train.groupby('Target').apply(lambda grp: grp.corr())