整数和布尔值之间的相关(pandas)?

时间:2018-01-13 15:08:28

标签: python pandas statistics correlation

我的数据形式为:

price | bool_qual_1 | bool_qual_2 | bool_qual_3
13000 |        True |        True |        True
20000 |       False |        True |        True
15000 |        True |        True |       False
13000 |       False |       False |       False
15000 |        True |        True |        True

换句话说,我的price属性有3个布尔质量。

如何找到price与我的每个品质之间的相关性?

我知道使用pearson相关的df.corr()但这个值在整数和布尔值之间有意义吗?

1 个答案:

答案 0 :(得分:0)

正如评论中的一些人已经建议的那样:只需将“True”替换为 1,将“False”替换为 0。但是在操作时您应该注意以下几点:< /p>

  1. 对于此任务,您将只能使用“Pearson 相关系数”,因为“Kendall Tau”和“Spearman 等级”系数是为可排序的相关性创建的,并且可能会导致随机/错误的答案。要在熊猫中使用 Pearson 相关系数,只需编写:

    df.corr(method ='pearson')

  2. 由于 price 变化很大,而列 bool_qual_* 没有变化(它们现在只有 0 或 1),因此您应该期望相关系数的值偏低。