我有一个dataset
,其中包含大约300个不同的类别代码(X2
),每个类别代码都与一个数字(X1
)相关联,通常会在不同的类别代码上重复,反之亦然:
X1 X2
1923 AA12
1923 AA28
1923 AA23
1348 AA12
1348 AB17
1348 AB08
9334 AA12
9334 AD02
等
我想弄清楚如何创建基于X1
变量在一起的不同类别或存储桶的类别代码,这些类别或存储桶最常见。我想不通一个简单的方法。
有什么想法吗?
谢谢!
答案 0 :(得分:0)
我不确定您期望的格式是什么,但是我只是将X1和X2列粘贴在一起,然后使用same state slice
进行频率计数。如果要查看最常见的内容,只需使用table
函数对其进行排序。
假设您的数据位于名为sort
的数据框中
df
如果您打算在原始数据框中使用给出标签以标识是否经常一起使用,请提供更多信息。因为没有一致的方法来识别“最常在一起的人”,除非您从字面上意味着只想对出现频率最高的人进行分类。