汇总熊猫数据框列表中的元素以获取另一列中的重复值

时间:2020-05-13 06:16:53

标签: python pandas dataframe sum standard-deviation

我有一个这样的熊猫DataFrame:

           time                            counts

0          1575570607  [2.7261962890625, 3.23345947265625, 3.62792968... 10.93457031]
1          1575570607  [2.7371826171875, 3.25067138671875, 3.61590576...  10.97705078]
2          1575570607  [2.7220458984375, 3.2255859375, 3.624206542968... 10.98773193]
3          1575570607  [2.7061767578125, 3.25439453125, 3.64025878906... 10.98150635]
...
...
...
148          1575570616  [ 2.75964355,  3.23248291,  3.68054199... 10.67126465]
149          1575570616  [  2.74298096,  3.24249268,  3.65496826... 10.69122314]
...
...
...
3170       1575570820  [7.13983154296875, 10.801025390625, 9.61779785... 11.74633789]
3171       1575570820  [7.06622314453125, 10.74639892578125, 9.812561... 11.78326416]
3172       1575570820  [7.0240478515625, 10.7535400390625, 9.88964843... 11.80712891]
3173       1575570820  [6.97918701171875, 10.70391845703125, 10.06866... 11.73602295]
3174       1575570820  [6.95111083984375, 10.58935546875, 10.22760009... 11.78594971]
3175       1575570820  [6.9254150390625, 10.493896484375, 10.38592529... 11.8414917 ]

您会看到df由两列组成,一种类型是整数,另一种类型是2304个浮点的列表。我想对“时间”列中每个重复行的“计数”列中包含的列表的每个行元素求和并求平均值,并添加具有单个标准差的列(如果可能),从而获得一个熊猫像这样的df:

           time             counts(mean)                                                  std  
0          1575570607  [2,737900391, 3,241027832, 3,627075193... 10.970175062]      [std[0], std[1], std[2]... std[2303]]
1          1575570616  [ 2,751312255,  3.237487795,  3.667755125... 10.681243895]   [std[0], std[1], std[2]... std[2303]]
...
...
n          1575570820  [ mean[0],  mean[1],  mean[2]... mean[2303]]                 [std[0], std[1], std[2]... std[2303]]

实际上,我只是尝试使用groupby或带有函数enumerate()的for循环对“时间”中重复值的列表“计数”的每个元素求和,但没有成功。 我发现了几篇关于重复行以及如何求和的文章,但是这里的问题是我有一个列表作为列,情况变得最糟。请问你能帮帮我吗!在此先感谢大家! 干杯!

0 个答案:

没有答案