我有一系列新闻,我想通过滚动窗口(例如3天)对新闻进行分组,以进行进一步的文本分析。
数据如下所示:(在pandas数据帧中)
date news
0 2017-01-03 'textA'
1 2017-01-03 'textB'
2 2017-01-04 'textC'
3 2017-01-05 'textD'
4 2017-01-05 'textE'
5 2017-01-05 'textF'
6 2017-01-06 'textG'
7 2017-01-06 'textH'
8 2017-01-07 'textI'
我想使用3天滚动窗口迭代所有新闻。 类似data.groupby('date',rolling = 3).apply(something)(我知道没有这样的语法,只是为了说明目的)
第一项申请操作适用于以下数据(2017-01-03至2017-01-05)。
2017-01-03 'textA'
2017-01-03 'textB'
2017-01-04 'textC'
2017-01-05 'textD'
2017-01-05 'textE'
2017-01-05 'textF'
相应地,对此的第二次申请操作:(从2017-01-04至2017-01-06)
2017-01-04 'textC'
2017-01-05 'textD'
2017-01-05 'textE'
2017-01-05 'textF'
2017-01-06 'textG'
2017-01-06 'textH'
我知道我可以手动找到索引并进行切片。但是,如果使用Python和Pandas功能有更方便的方法,我想要。
P.S。:索引中的数据可能不是连续的天数(可能有几天没有条目)