python pandas groupby计算更改

时间:2017-01-03 22:23:29

标签: python pandas group-by pandas-groupby

我想按组计算价值变化。

这是我拥有的python pandas数据帧:

Group |   Date      | Value
  A     01-02-2016     16 
  A     01-03-2016     15 
  A     01-04-2016     14 
  A     01-05-2016     17 
  A     01-06-2016     19 
  A     01-07-2016     20 
  B     01-02-2016     16 
  B     01-03-2016     13 
  B     01-04-2016     13 
  C     01-02-2016     16 
  C     01-03-2016     16 

我想计算一下,对于A组,值正在上升,对于B组他们正在下降而对于C组他们没有变化。

我不确定如何处理它,因为在A组中,值最初会减少然后增加。那么我应该看看平均变化或最近的变化?

我应该使用pct_change吗? http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pct_change.html我不确定如何指定时间帧。

df.groupby.pct_change

如果我能想象它也会很棒。任何建议或提示非常感谢!谢谢

1 个答案:

答案 0 :(得分:6)

pct_change

中使用groupby
d1 = df.set_index(['Date', 'Group']).Value
d2 = d1.groupby(level='Group').pct_change()
print(d2)

Date        Group
2016-01-02  A             NaN
2016-01-03  A       -0.062500
2016-01-04  A       -0.066667
2016-01-05  A        0.214286
2016-01-06  A        0.117647
2016-01-07  A        0.052632
2016-01-02  B             NaN
2016-01-03  B       -0.187500
2016-01-04  B        0.000000
2016-01-02  C             NaN
2016-01-03  C        0.000000
Name: Value, dtype: float64

可视化和比较的众多方法之一是看它们如何成长。在这种情况下,我

  • fillna(0)
  • add(1)
  • cumprod()
d2.fillna(0).add(1).cumprod().unstack().plot()

enter image description here

设置

from io import StringIO
import pandas as pd

txt = """Group   Date       Value
  A     01-02-2016     16 
  A     01-03-2016     15 
  A     01-04-2016     14 
  A     01-05-2016     17 
  A     01-06-2016     19 
  A     01-07-2016     20 
  B     01-02-2016     16 
  B     01-03-2016     13 
  B     01-04-2016     13 
  C     01-02-2016     16 
  C     01-03-2016     16 """

df = pd.read_clipboard(parse_dates=[1])