如果我在数据框中有一个列,并且该列包含两个可能的分类变量,我如何计算每个变量出现了多少次?
例如,我如何计算研究中有多少男性或女性?
我尝试了value_counts,groupby,len等,但似乎弄错了。
谢谢
答案 0 :(得分:2)
假设“性别”是数据框的列,我们可以使用来统计分类数据的出现次数
df['gender'].value_counts().to_dict()
它将以字典格式给出两类数据的计数
{"male":4,"female":5}
如果您希望使用列表格式,则
df['gender'].value_counts().tolist()
输出将为
[4,5]
答案 1 :(得分:0)
您可以使用len([x for x in df["Sex"] if x == "Male")
。这将遍历数据框的Sex
列,并确定元素是否为“男性”。如果是,则通过列表理解将其附加到列表中。该列表的长度是您数据框中的“男性”数量。