以下代码演示了类别条目的计数(b
为business
,e
为entertainment
,t
为science/technology
,{{每个唯一发布商都有1}} m
}。我需要帮助的地方是过滤到排名最高的类别条目总数的十大出版商。
health
我知道如何提取最高的个人类别数量(请参阅下面的代码),但我不知道如何将此逻辑与上述代码混合。
pub_cat_group = headline_df.groupby(['PUBLISHER', 'CATEGORY'])['TITLE'].count()
pub_cat_group
100.7 WZLX Classic Rock b 1
e 11
1011now b 2
e 2
m 7
t 11
106 JACK fm b 8
t 1
我的最终目标是为十大出版商绘制类别数量,以便我可以在顶级出版物中显示每个类别的类别频率。
答案 0 :(得分:1)
根据您的描述,我认为您需要
pub_cat_group = headline_df.groupby(['PUBLISHER', 'CATEGORY'])['TITLE'].count()
# I am adding the unstack, here for you to plot
New=pub_cat_group.sort_values().groupby(level=[0,1]).head(10).unstack()
更新:
pub_cat_group.sum(level=0).sort_values().head(10)