我在下表中包含了DataFrame df_pivoted:
成本成本val1 val1 val1
user_id 1 2 3 1 2 3
时间戳
01/01/2011 1 100 3 5
01/02/2011 20 8
01/07/2012 19 57
01/11/2012 3100 49
21/12/2012 240 30
14/09/2013 21 63
01/12/2013 3200 51
我想计算AVERAGE每月费用,但声明df_monthly = pivoted.resample('M')不返回平均值,而只返回月份值的总和。另外,我想知道如何计算与每个用户相关的每个字段的平均成本(“成本”,“val1”等)。
使用以获取上表的代码是:
import pandas as pd
newnames = ['timestamp','user_id', 'cost', 'val1','val2', 'val3','code']
df = pd.read_csv('mytest.csv', names = newnames, header = False, parse_dates=True, dayfirst=True)
df['timestamp'] = pd.to_datetime(df['timestamp'], dayfirst=True)
pivoted = df.pivot('timestamp', 'user_id')
提前感谢您的帮助。
答案 0 :(得分:1)
查看文档http://pandas.pydata.org/pandas-docs/version/0.13.1/generated/pandas.DataFrame.resample.html您需要指定重新采样的完成方式,例如总和或平均值...您可以按字段指定...默认值是均值,不完全确定为什么要获得总和而不是