Question

我有一个熊猫数据框，如下所示：

df =
A             B                      C
A.1           B.1                    0.2
A.1           B.2                    0.04
...           ...                    ...
A.1           B.25                   0.02
A.2           B.1                    0.04
A.2           B.2                    0.21
...           ...                    ...
A.2           B.25                   0.12
...           ...                    ...
A.1000        B.25                   0.15

我想按A分组并形成B列和C列的列表。C表示概率。对于每个A值，B列最多包含25个唯一值。但是，其中一些概率为0.0，并且不在数据框中。

问题。B中的某些值缺失。我想要的是对于B B.i中的每个缺失值，我想在C列中添加相应的值B.i和0.0。然后，我要按A分组并形成一个列表在B和C之外，因此列表的顺序对于每一行总是相同的，并根据B进行排序。

预期产量

A               B                                   C
A.1             [B.1 B.2 ... B.25]               [0.2 0.04 ... 0.02]
...

我做到了：

df.sort_values('B').groupby('A').agg(list)

但是，如何在每个组中添加B的缺失值，并在C中用0.0初始化它们？

熊猫数据框以0.0初始化并完成每个组

0 个答案: