我正在处理一个大的有序列表(100k +,按时间戳排序),但不幸的是,它由如下的序列块组成:
....
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
2014-10-07T11:07:22.735Z, 1.5250000000000000E+03
我想对这些重复的时间戳取平均值,然后将它们替换为一对,就像这样:
...
2014-10-07T11:07:22.735Z, <the_mean_value_across_duplicate_timestamps>
在这种情况下,<the_mean_value_across_duplicate_timestamps>
就是1.5250000000000000E+03
通过python3和numpy实现此目的的最有效方法是什么?确实,我可以编写一个for
循环,但是我认为这不是最有效的方法。
答案 0 :(得分:1)
不确定要什么吗?
case
答案 1 :(得分:0)
不幸的是,您没有说明列名,但是我建议使用pandas。 groupby。然后,从分组的时间戳计算值的平均值。
df.groupby(by=['timestamp'], axis=1).mean()