如何使用pandas生成包含计数的列联表?

时间:2018-04-30 16:23:31

标签: pandas crosstab contingency

假设我有这样的数据:

+-------+--------+--------------+--------+--------------+
| index | used_x | clicked_in_x | used_y | clicked_in_y |
+-------+--------+--------------+--------+--------------+
|     1 | True   | False        | True   | True         |
|     2 | False  | False        | True   | False        |
|     3 | True   | True         | False  | False        |
+-------+--------+--------------+--------+--------------+

我想使用pandas生成一个列联表,该表显示如下表:

+--------+----------------+----------------+
|        | clicked_from_x | clicked_from_y |
+--------+----------------+----------------+
| used_x |             40 |              3 |
| used_y |              2 |             10 |
+--------+----------------+----------------+

实现这一目标的最佳方法是什么?到目前为止,我已尝试使用crosstab方法进行以下操作:

import numpy as np
import pandas as pd

size = 20

df = pd.DataFrame({
    'used_x': np.random.choice(a=[False, True], size=size),
    'clicked_from_x': np.random.choice(a=[False, True], size=size),
    'used_y':  np.random.choice(a=[False, True], size=size),
    'clicked_from_y':  np.random.choice(a=[False, True], size=size),
})

pd.crosstab([df['used_x'], df['used_y']], [df['clicked_from_x'], df['clicked_from_y']],  margins=False)

哪个收益率:

enter image description here

但这很难理解,而不是我所希望的代表性。有谁知道如何获得我想要的结果,或者使用熊猫的等效策略?

1 个答案:

答案 0 :(得分:1)

我们将在这里使用全能的dot产品子程序。

i = df.filter(like='clicked')
j = df.filter(like='used')

j.astype(int).T.dot(i)

        clicked_from_x  clicked_from_y
used_x               6               5
used_y               6               6