我想知道我是否有3列的pandas数据框。 首先是布尔值,其他是浮点型。
如果我在数据框上运行.corr(),应该如何解释答案? 例如:
corr_matrix = df.corr()
corr_matrix["Bought"].abs().sort_values(ascending=False)
Bought 1.000000
Price 0.283186
Price2 0.118623
有人可以说“价格”与“购买”标志之间的相关性更高,然后对模型的影响要比“价格2”高吗?
否则我该如何决定在模型中使用什么价格?
答案 0 :(得分:1)
您应该寻找点-二元相关性(which is a special case of Pearson correlation)。如果您真的必须在没有任何其他库的情况下使用熊猫,那么我认为Pearson相关性应该起作用,只需将true / false编码为1和0。