Question

如果我在数据框中有一个列，并且该列包含两个可能的分类变量，我如何计算每个变量出现了多少次？

例如，我如何计算研究中有多少男性或女性？

我尝试了value_counts，groupby，len等，但似乎弄错了。

谢谢

Answer 1

假设“性别”是数据框的列，我们可以使用来统计分类数据的出现次数

df['gender'].value_counts().to_dict()

它将以字典格式给出两类数据的计数

{"male":4,"female":5}

如果您希望使用列表格式，则

df['gender'].value_counts().tolist()

输出将为

[4,5]

Answer 2

您可以使用len([x for x in df["Sex"] if x == "Male")。这将遍历数据框的Sex列，并确定元素是否为“男性”。如果是，则通过列表理解将其附加到列表中。该列表的长度是您数据框中的“男性”数量。