我有房地产数据(每月房屋零售数据),并且我希望按时间序列获取每个地区的年度房屋销售量。对于我来说,如何获取时间序列数据的均值/中位数不是直觉。有没有人指出我该怎么做?
这是我的时间序列数据的样子:
此外,这里我与在线文件共享主机example data snippet
共享了示例数据集数据描述:
在此房地产数据中,行是地区,列是每月房屋零售统计。我想获得该房地产数据的年度平均值/中位数。我怎样才能做到这一点?任何想法?
所需的输出:
这是我想要获得的草图所需输出。
region 2012_mean 2012_median 2013_mean 2013_median
Chicago, IL metro area xxx xxx xxx xxx
Chicago, IL xxx xxx xxx xxx
Chicago, IL - Albany Park xxx xxx xxx xxx
Chicago, IL - Andersonville xxx xxx xxx xxx
Chicago, IL - Arcadia Terrace xxx xxx xxx xxx
答案 0 :(得分:2)
首先请确保您的列是datetime
对象,与groupby
一样
df.columns=df.columns.str.strip()
df=df.set_index('Region')
s=df.T.groupby(df.columns.year).agg(['mean','median']).T.unstack()
s.columns=s.columns.map('_'.join)