我有一个日期框,其中包含一列日期Y-M-D和一个带文字的列。
我想迭代行并确定每天特定单词(在列表中预定义)的频率。然后,这应该进入一个字典,每天每个单词的频率。
我有这个来计算列表中的单词
words = ['monkey', 'cat']
pd.Series((df.text.str.contains(r).sum() for r in words), words, name='count')
我已经创建了一个索引:
df.index
DatetimeIndex(['1958-12-20', '1958-11-08', '1959-11-13', '1959-01-13',
'1959-06-05', '1959-06-25', '1959-10-27', '1959-11-14',
'1959-01-14', '1960-07-02',
...
'1979-07-28', '1979-04-27', '1979-05-19', '1979-01-11',
'1979-03-17', '1979-12-13', '1979-11-17', '1979-03-17',
'1979-07-25', '1979-10-20'],
dtype='datetime64[ns]', length=4481, freq=None)
我对groupby和iterrows有一点了解,但我不确定如何将它结合起来并将输出放在字典中。