我一直试图分析一些32位二进制代码的数据。它已被转换为相应的十进制值,我已根据某些相似性将数据分组为几个类别。现在,有没有办法计算每个类别中相似性/不相似性的度量? 标准偏差,方差等概念在这里没有意义,但我确信汉明距离的概念可以用来比较两个字符串之间的相似性。
但是,如何使用汉明距离计算包含10000个这样的二进制代码(转换为十进制)的组的合理度量?我一般如何进行?我怎么能用R来实现某些东西,因为我所做的其余计算是在R。
任何帮助都将深表感谢。
请在下面找到我的数据样本:
ID(Group5) BinCode
1 2621440
2 3670018
3 3670018
4 3670018
5 3670018
6 2621440
7 3670018
8 2621442
9 3670018