1)大多数功能不是正常分发的
2)功能包含缺少数据(每个功能少于50%),我想稍后再感受一下。我找不到这些模块如何处理None值。 (只是看到与填充中位数的相同数据集pearsonr> 0.7找到71个相关特征而不是200 +)
所有内容都存储在pandas数据框中,因此从技术上讲,我将列表(df.column_name)传递给pearsonr。
UPD: 好吧,找到 pandas.DataFrame.corr :
否认这太诱人了,所以我会坚持下去(而Spearman是我的朋友,可以进入数学统计推荐)。但是 - 懒惰的熊猫并不总是适合你。