将数据帧汇总到字典中

时间:2015-10-27 07:30:49

标签: python dictionary pandas dataframe

我有像这样的pandas数据框

    date        hour  level
0  2015-10-27    0     2.5
1  2015-10-27    1     2.5     
2  2015-10-27    2     2.5
3  2015-10-27    3     2.5
4  2015-10-28    0     0.0
5  2015-10-28    1     0.0
6  2015-10-28    2     0.0
7  2015-10-28    3     0.0
8  2015-10-28    4     0.0
...
14 2015-10-29    0     3.23
15 2015-10-29    1     3.23
...

hour将始终从0开始,并递增1;它可能会或可能不会达到23. date一次增加一天,但日期条目的数量可能会因日期而异,例如: - 2015-10-27有4个条目,而2015-10-28上升到第13行。level条目将始终具有该日期的相同值,但该值可能会或可能不会出现在另一个日期

我想要获得的是这种形式的字典

{'2015-10-27': '3', ..., '2015-10-29': '4', ...}

字典值表示level落入的范围,即如果level为2.5,则它落在[2,3]中。我想要做的只是选择每个"块"的第一行。并创建一个新的数据框,然后迭代并应用10个if语句(level的最大值为9.xx)或者可能使用ceiling函数。但我也不知道该怎么做,而且看起来很笨拙。

是否有更简化的方法来做到这一点?

1 个答案:

答案 0 :(得分:2)

如果每个日期level的所有值都在同一范围内,您可以根据date进行分组(使用DataFrame.groupby()),然后选择max level列,然后ceil所有值(到上限),然后使用Series.to_dict()将该系列转换为字典。示例 -

df.groupby('date')['level'].first().apply(np.ceil).to_dict()

演示 -

In [44]: df
Out[44]:
          date  hour  level
0   2015-10-27     0   2.50
1   2015-10-27     1   2.50
2   2015-10-27     2   2.50
3   2015-10-27     3   2.50
4   2015-10-28     0   0.00
5   2015-10-28     1   0.00
6   2015-10-28     2   0.00
7   2015-10-28     3   0.00
8   2015-10-28     4   0.00
14  2015-10-29     0   3.23
15  2015-10-29     1   3.23

In [45]: df.groupby('date')['level'].first().apply(np.ceil).to_dict()
Out[45]: {'2015-10-27': 3.0, '2015-10-28': 0.0, '2015-10-29': 4.0}

如果您希望字典中的值为int,则可以在使用int方法转换为字典之前将值转换为Series.astype()。示例 -

In [46]: df.groupby('date')['level'].first().apply(np.ceil).astype(int).to_dict()
Out[46]: {'2015-10-27': 3, '2015-10-28': 0, '2015-10-29': 4}