分析R中等长二进制码之间的相似性/不相似性

时间:2016-10-15 20:05:34

标签: r analysis

我一直试图分析一些32位二进制代码的数据。它已被转换为相应的十进制值,我已根据某些相似性将数据分组为几个类别。现在,有没有办法计算每个类别中相似性/不相似性的度量? 标准偏差,方差等概念在这里没有意义,但我确信汉明距离的概念可以用来比较两个字符串之间的相似性。

但是,如何使用汉明距离计算包含10000个这样的二进制代码(转换为十进制)的组的合理度量?我一般如何进行?我怎么能用R来实现某些东西,因为我所做的其余计算是在R。

任何帮助都将深表感谢。

请在下面找到我的数据样本:

ID(Group5)        BinCode
1                2621440
2                3670018
3                3670018
4                3670018
5                3670018
6                2621440
7                3670018
8                2621442
9                3670018

0 个答案:

没有答案