python3 numpy对重复的时间戳值进行平均

时间:2019-12-07 13:01:39

标签: python numpy

我正在处理一个大的有序列表(100k +,按时间戳排序),但不幸的是,它由如下的序列块组成:

....
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03

我想对这些重复的时间戳取平均值,然后将它们替换为一对,就像这样:

...
2014-10-07T11:07:22.735Z, <the_mean_value_across_duplicate_timestamps>

在这种情况下,<the_mean_value_across_duplicate_timestamps>就是1.5250000000000000E+03

通过python3和numpy实现此目的的最有效方法是什么?确实,我可以编写一个for循环,但是我认为这不是最有效的方法。

2 个答案:

答案 0 :(得分:1)

不确定要什么吗?

case

答案 1 :(得分:0)

不幸的是,您没有说明列名,但是我建议使用pandas。 groupby。然后,从分组的时间戳计算值的平均值。

df.groupby(by=['timestamp'], axis=1).mean()