假设我有这样的数据:
+-------+--------+--------------+--------+--------------+
| index | used_x | clicked_in_x | used_y | clicked_in_y |
+-------+--------+--------------+--------+--------------+
| 1 | True | False | True | True |
| 2 | False | False | True | False |
| 3 | True | True | False | False |
+-------+--------+--------------+--------+--------------+
我想使用pandas生成一个列联表,该表显示如下表:
+--------+----------------+----------------+
| | clicked_from_x | clicked_from_y |
+--------+----------------+----------------+
| used_x | 40 | 3 |
| used_y | 2 | 10 |
+--------+----------------+----------------+
实现这一目标的最佳方法是什么?到目前为止,我已尝试使用crosstab
方法进行以下操作:
import numpy as np
import pandas as pd
size = 20
df = pd.DataFrame({
'used_x': np.random.choice(a=[False, True], size=size),
'clicked_from_x': np.random.choice(a=[False, True], size=size),
'used_y': np.random.choice(a=[False, True], size=size),
'clicked_from_y': np.random.choice(a=[False, True], size=size),
})
pd.crosstab([df['used_x'], df['used_y']], [df['clicked_from_x'], df['clicked_from_y']], margins=False)
哪个收益率:
但这很难理解,而不是我所希望的代表性。有谁知道如何获得我想要的结果,或者使用熊猫的等效策略?
答案 0 :(得分:1)
我们将在这里使用全能的dot
产品子程序。
i = df.filter(like='clicked')
j = df.filter(like='used')
j.astype(int).T.dot(i)
clicked_from_x clicked_from_y
used_x 6 5
used_y 6 6