我有一个包含日期的数据框,我想按照特征工程
处理数据DF
date
2016/1/1
2015/2/10
2016/4/5
在进程之后我想让df看起来像
date Jan Feb Mar Apr
2016/1/1 30 0 0 0 //date from 1/1 to 1/30 : the number of dates in jan
2015/2/10 0 19 11 0 //date from 2/10 to 3/11 : the number of dates in feb and no of dates in mar
2016/3/25 0 0 7 21 //date from 3/25 to 4/21 : the number of dates in mar and no of dates in apr
在df [" date"]
之后30天df [" date"] + timedelta(month = 1)
计算属于特定30天的月份的频率
有什么方法可以快速完成吗?
感谢。
答案 0 :(得分:2)
一步一步走。首先,您将原始日期偏移+ pd.to_timedelta('30d')
。然后创建一个仅按df.date.dt.month
指示月份的列。然后创建一个包含每个日期的月末日期的列 - 这里有一些想法:Want the last day of each month for a data frame in pandas。最后,填写一个矩阵,其中列为12个月,在月份和月份的列中设置值+ 1.
通过一次丰富DataFrame一列,您可以轻松地从输入移动到所需的输出。不可能有一种神奇的方法可以在一次通话中完成所有事情。
在这里阅读关于熊猫日期/时间功能的所有内容:https://pandas.pydata.org/pandas-docs/stable/timeseries.html - 有很多内容!
答案 1 :(得分:1)
您可以将自定义功能与date_range
和groupby
一起使用size
:
date = df[['date']]
names = ['Jan', 'Feb','Mar','Apr','May']
def f(x):
print (x['date'])
a = pd.date_range(x['date'], periods=30)
a = pd.Series(a).groupby(a.month).size()
return (a)
df = df.apply(f, axis=1).fillna(0).astype(int)
df = df.rename(columns = {k:v for k,v in enumerate(names)})
df = date.join(df)
print (df)
date Feb Mar Apr May
0 2016-01-01 30 0 0 0
1 2015-02-10 0 19 11 0
2 2016-03-25 0 0 7 23
与value_counts
类似的解决方案:
date = df[['date']]
names = ['Jan', 'Feb','Mar','Apr','May']
df = df.apply(lambda x: pd.date_range(x['date'], periods=30).month.value_counts(), axis=1)
.fillna(0)
.astype(int)
df = df.rename(columns = {k:v for k,v in enumerate(names)})
df = date.join(df)
print (df)
另一种解决方案:
names = ['Jan', 'Feb','Mar','Apr','May']
date = df[['date']]
df["date1"] = df["date"] + pd.Timedelta(days=29)
df = df.reset_index().melt(id_vars='index', value_name='date').set_index('date')
df = df.groupby('index').resample('D').asfreq()
df = df.groupby([df.index.get_level_values(0), df.index.get_level_values(1).month])
.size()
.unstack(fill_value=0)
df = df.rename(columns = {k+1:v for k,v in enumerate(names)})
df = date.join(df)
print (df)
date Jan Feb Mar Apr
0 2016-01-01 30 0 0 0
1 2015-02-10 0 19 11 0
2 2016-03-25 0 0 7 23