我有一个数据框,其中记录了多列统计信息。
我有一个RawSourceWaveStream
的列名:item
。
我想合并数据以获得每个WaveFormat
的一行。
数据以最上面的最新记录排序。我需要最新的数据,因此必须使用每列的第一个值,list
。
我的数据框如下:
stat_columns = ['Height', 'Speed']
我希望它看起来像这样:
id
我自己尝试了一个简单的id
:
Index id Height Speed
0 100007 8.3
1 100007 54
2 100007 8.6
3 100007 52
4 100035 39
5 100014 44
6 100035 5.6
但是,这似乎只给了我第一项统计数据。
答案 0 :(得分:3)
对我来说,您的解决方案有效,也许有必要将空值替换为NaN
:
df_stats = df_path.replace('',np.nan).groupby('id', as_index=False).first()
print (df_stats)
id Index Height Speed
0 100007 0 54.0 8.3
1 100014 5 44.0 NaN
2 100035 4 39.0 5.6