Question

以下代码演示了类别条目的计数（b为business，e为entertainment，t为science/technology，{{每个唯一发布商都有1}} m}。我需要帮助的地方是过滤到排名最高的类别条目总数的十大出版商。

health

我知道如何提取最高的个人类别数量（请参阅下面的代码），但我不知道如何将此逻辑与上述代码混合。

pub_cat_group = headline_df.groupby(['PUBLISHER', 'CATEGORY'])['TITLE'].count()
pub_cat_group

100.7 WZLX Classic Rock                               b             1
                                                      e            11
1011now                                               b             2
                                                      e             2
                                                      m             7
                                                      t            11
106 JACK fm                                           b             8
                                                      t             1

我的最终目标是为十大出版商绘制类别数量，以便我可以在顶级出版物中显示每个类别的类别频率。

Answer 1

根据您的描述，我认为您需要

pub_cat_group = headline_df.groupby(['PUBLISHER', 'CATEGORY'])['TITLE'].count()
# I am adding the unstack, here for you to plot 
New=pub_cat_group.sort_values().groupby(level=[0,1]).head(10).unstack()

更新：

pub_cat_group.sum(level=0).sort_values().head(10)

pandas - 过滤具有最高总和的行

1 个答案: