Python - 计算日期范围中的唯一标签

时间:2017-10-02 12:08:32

标签: python pandas pandas-groupby

我试图对我从互联网上抓取的一堆文本数据进行情绪分析。我已经达到了一个点,我的Pandas DataFrame有以下列我想分析:" post_date" (格式为dd-mm-yyyy,即01-10-2017)& "情绪" (格式为"肯定","中立"或"否定")。

我希望能够计算每天/每月/每年的帖子数量,以及每天的正/中/负帖子数量。

例如像以下那样产生的那些:

print pd.value_counts(df.Sentiment)

但是我被卡住了,我已尝试过groupby命令的多次迭代(下面),但不断出现错误。

df.groupby(df.post_date.dt.year)

有人可以帮我解决这个问题吗?

理想情况下,所需的输出类似于:

Date, Postive_Posts, Negative_Posts, Neutral_Posts, Total_Posts
01/10/2017, 10, 5, 8, 23
02/10/2017, 5, 20, 5, 30

其中日期是信息的分组方式(日,月,年等),pos / neg / neu列是与该范围内标签数相对应的总帖子,最后total_posts是该范围内的帖子总数。

目前的数据是:

post_date, Sentiment
19/09/2017, positive
19/09/2017, positive
19/09/2017, positive
20/09/2017, negative
20/09/2017, neutral

如果您需要更多信息,请与我们联系。

1 个答案:

答案 0 :(得分:1)

您可以使用groupby + size + unstack + add_suffix + sum

df1 = df.groupby(['post_date','Sentiment']).size().unstack(fill_value=0).add_suffix('_Posts')
df1['Total_Posts'] = df1.sum(axis=1)
print (df1)

Sentiment   negative_Posts  neutral_Posts  positive_Posts  Total_Posts
post_date                                                             
19/09/2017               0              0               3            3
20/09/2017               1              1               0            2

一行解决方案非常相似 - 只需要assign

df1 = (df.groupby(['post_date','Sentiment'])
        .size()
        .unstack(fill_value=0)
        .add_suffix('_Posts')
        .assign(Total_Posts=lambda x: x.sum(axis=1)))

print (df1)

Sentiment   negative_Posts  neutral_Posts  positive_Posts  Total_Posts
post_date                                                             
19/09/2017               0              0               3            3
20/09/2017               1              1               0            2

来自index的列:

df1 = (df.groupby(['post_date','Sentiment'])
        .size()
        .unstack(fill_value=0)
        .add_suffix('_Posts')
        .assign(Total_Posts=lambda x: x.sum(axis=1))
        .reset_index()
        .rename_axis(None, axis=1))

print (df1)

    post_date  negative_Posts  neutral_Posts  positive_Posts  Total_Posts
0  19/09/2017               0              0               3            3
1  20/09/2017               1              1               0            2