如何计算列中值的频率并计算相对于总数的百分比?
我有一个数据框:
range
0 G-L
1 M-R
2 G-L
3 M-R
4 A-F
5 S-Z
6 A-F
.. ..
.. ..
在 df.range.value_counts()之后我得到了:
A-F 1882
G-L 3096
M-R 3830
S-Z 1017
现在我想获取每个范围相对于总和的百分比,并在绘图中显示出来,其中x轴显示了范围(AF; GL; ...),y轴显示了这些范围的百分比。
答案 0 :(得分:2)
假设这是您的DataFrame
:
data = {'labels': ["A-F", "G-L", "M-R", "S-Z"], 'count':[1882, 3096, 3830, 1017]}
df = pd.DataFrame.from_dict(data)
print(df)
labels count
0 A-F 1882
1 G-L 3096
2 M-R 3830
3 S-Z 1017
现在,您必须计算每一行的百分比:
df['percentage'] = (df['count'] / df['count'].sum()) * 100
print(df)
labels count percentage
0 A-F 1882 19.155216
1 G-L 3096 31.511450
2 M-R 3830 38.982188
3 S-Z 1017 10.351145
,然后使用df.plot()
函数并指定其kind
(我认为这是一个小节图)来绘制标签与百分比的关系。
df.plot(kind='bar', x='labels', y='percentage')
编辑:
value_counts()
方法返回一个pd.Series()
对象。要绘制它,您可以运行以下行:
df.range.value_counts(normalize=True).plot(kind='bar')