Question

我正在尝试使用pandas找到不同列的最高相关性。我知道可以通过

得到相关矩阵

df.corr()

我知道在

之后我可以获得最高的相关性

df.sort() 
df.stack() 
df[-5:]

问题是这些相关性还包含列本身的值（1）。如何删除包含与self相关的列？我知道我可以通过删除所有1个值来删除它们，但我不想这样做，因为也可能存在实际的1个相关性。

Answer 1

说你有

corrs = df.corr()

然后问题在于对角元素IIUC。您可以轻松地将它们设置为某个负值，例如-2（这必然低于所有相关性）

np.fill_diagonal(corrs.values, -2)

示例

（非常感谢@Fabian Rost的改进和@jezrael的DataFrame）

import numpy as np df=pd.DataFrame( { 'one':[0.1, .32, .2, 0.4, 0.8], 'two':[.23, .18, .56, .61, .12], 'three':[.9, .3, .6, .5, .3], 'four':[.34, .75, .91, .19, .21], 'zive': [0.1, .32, .2, 0.4, 0.8], 'six':[.9, .3, .6, .5, .3], 'drive':[.9, .3, .6, .5, .3]}) corrs = df.corr() np.fill_diagonal(corrs.values, -2) >>> corrs drive four one six three two zive drive -2.000000 -0.039607 -0.747365 1.000000 1.000000 0.238102 -0.747365 four -0.039607 -2.000000 -0.489177 -0.039607 -0.039607 0.159583 -0.489177 one -0.747365 -0.489177 -2.000000 -0.747365 -0.747365 -0.351531 1.000000 six 1.000000 -0.039607 -0.747365 -2.000000 1.000000 0.238102 -0.747365 three 1.000000 -0.039607 -0.747365 1.000000 -2.000000 0.238102 -0.747365 two 0.238102 0.159583 -0.351531 0.238102 0.238102 -2.000000 -0.351531 zive -0.747365 -0.489177 1.000000 -0.747365 -0.747365 -0.351531 -2.000000

Answer 2

我最近发现我的问题更清晰，你可以按价值比较多指数水平。

这就是我最终使用的。

corr = df.corr().stack()
corr = corr[corr.index.get_level_values(0) != corr.index.get_level_values(1)]

熊猫：如何从相关矩阵中删除自相关

2 个答案: