我有一个熊猫数据框,如下所示:
df =
A B C
A.1 B.1 0.2
A.1 B.2 0.04
... ... ...
A.1 B.25 0.02
A.2 B.1 0.04
A.2 B.2 0.21
... ... ...
A.2 B.25 0.12
... ... ...
A.1000 B.25 0.15
我想按A分组并形成B列和C列的列表。C表示概率。对于每个A值,B列最多包含25个唯一值。但是,其中一些概率为0.0,并且不在数据框中。
问题。B中的某些值缺失。我想要的是对于B B.i
中的每个缺失值,我想在C列中添加相应的值B.i
和0.0
。然后,我要按A分组并形成一个列表在B和C之外,因此列表的顺序对于每一行总是相同的,并根据B进行排序。
预期产量
A B C
A.1 [B.1 B.2 ... B.25] [0.2 0.04 ... 0.02]
...
我做到了:
df.sort_values('B').groupby('A').agg(list)
但是,如何在每个组中添加B的缺失值,并在C中用0.0初始化它们?