我的数据形式为:
price | bool_qual_1 | bool_qual_2 | bool_qual_3
13000 | True | True | True
20000 | False | True | True
15000 | True | True | False
13000 | False | False | False
15000 | True | True | True
换句话说,我的price
属性有3个布尔质量。
如何找到price
与我的每个品质之间的相关性?
我知道使用pearson相关的df.corr()但这个值在整数和布尔值之间有意义吗?
答案 0 :(得分:0)
正如评论中的一些人已经建议的那样:只需将“True”替换为 1,将“False”替换为 0。但是在操作时您应该注意以下几点:< /p>
对于此任务,您将只能使用“Pearson 相关系数”,因为“Kendall Tau”和“Spearman 等级”系数是为可排序的相关性创建的,并且可能会导致随机/错误的答案。要在熊猫中使用 Pearson 相关系数,只需编写:
df.corr(method ='pearson')
由于 price
变化很大,而列 bool_qual_*
没有变化(它们现在只有 0 或 1),因此您应该期望相关系数的值偏低。