Pandas,来自2列的数据透视表,值是这些列之一的计数

时间:2018-07-24 12:50:45

标签: python pandas pivot

我有一个熊猫数据框:

+---------------+-------------+
| Test_Category | Test_Result |
+---------------+-------------+
| Cat_1         | Pass        |
| Cat_1         | N/A         |
| Cat_2         | Fail        |
| Cat_2         | Fail        |
| Cat_3         | Pass        |
| Cat_3         | Pass        |
| Cat_3         | Fail        |
| Cat_3         | N/A         |
+---------------+-------------+

我需要一个这样的表:

+------+------+------+-----+
|      | Pass | Fail | N/A |
+------+------+------+-----+
| Cat1 |    1 |      |   1 |
| Cat2 |      |    2 |     |
| Cat3 |    2 |    1 |   1 |
+------+------+------+-----+

我尝试使用数据透视表,但是无法弄清楚如何从Test_Result列中计算发生的次数并将它们作为值放入透视结果中。

谢谢!

2 个答案:

答案 0 :(得分:1)

这是问题export class Endpoint<T, U> { constructor( private path: string, private method: HTTP_METHOD, private data: T, private response: U ) {} // your new promise method there } 的值被排除在外,因此必须将fillnacrosstab一起使用:

NaN

或将GroupBy.sizeunstack一起使用以进行整形:

df1 = pd.crosstab(df['Test_Category'], df['Test_Result'].fillna('n/a'))
print (df1)
Test_Result    Fail  Pass  n/a
Test_Category                 
Cat_1             0     1    1
Cat_2             2     0    0
Cat_3             1     2    1

df['Test_Result'] = df['Test_Result'].fillna('n/a')

df1 = df.groupby(['Test_Category','Test_Result']).size().unstack()
print (df1)
Test_Result    Fail  Pass  n/a
Test_Category                 
Cat_1           NaN   1.0  1.0
Cat_2           2.0   NaN  NaN
Cat_3           1.0   2.0  1.0

使用pivot_table的另一种解决方案:

df1 = df.groupby(['Test_Category','Test_Result']).size().unstack(fill_value=0)
print (df1)
Test_Result    Fail  Pass  n/a
Test_Category                 
Cat_1             0     1    1
Cat_2             2     0    0
Cat_3             1     2    1

答案 1 :(得分:1)

您可以使用两列中的唯一值作为索引和列来构建新的数据框,并使用熊猫的iterrows()

df_out = pd.DataFrame(index=df['Test_Category'].unique().tolist(), columns=df['Test_Result'].unique().tolist())

for index, row in df_out.iterrows():
    for col in df_out.columns:
        df_out.loc[index, col] = len(df[(df['Test_Category'] == index) & (df['Test_Result'] == col)])

输出

       Pass  nan  Fail
Cat1     1    1     0
Cat2     0    0     2
Cat3     2    1     1

尽管使用groupby()绝对应该更快。