Question

我有一个dataset，其中包含大约300个不同的类别代码（X2），每个类别代码都与一个数字（X1）相关联，通常会在不同的类别代码上重复，反之亦然：

等

我想弄清楚如何创建基于X1变量在一起的不同类别或存储桶的类别代码，这些类别或存储桶最常见。我想不通一个简单的方法。

有什么想法吗？

谢谢！

Answer 1

我不确定您期望的格式是什么，但是我只是将X1和X2列粘贴在一起，然后使用same state slice进行频率计数。如果要查看最常见的内容，只需使用table函数对其进行排序。

假设您的数据位于名为sort的数据框中

df

如果您打算在原始数据框中使用给出标签以标识是否经常一起使用，请提供更多信息。因为没有一致的方法来识别“最常在一起的人”，除非您从字面上意味着只想对出现频率最高的人进行分类。