我有500个移动设备的数据集,其中有10个属性,即
Date|Company|ModelName|Price|HardDisk|RAM|Colour|Display size|Cam1|Cam2
样本数据集如下:
24/10/2015 | walmart | Samsung Galaxy Note 4 N910H 32GB Unlocked GSM OctaCore Cell Phone-N910H 32GB GOLD | 599.99 | 32 | N/A | cell gold | N/A | 10.2 | 16
25/10/2015 | walmart | Samsung Galaxy Note 5 SM-N920i Gold International Model Unlocked GSM Mobile Phone | 717.95 | 32 | N/A | gold | N/A | 5.7 | 16
26/10/2015 | amazon | T-Mobile AllShare Cast Wireless Hub | 65.15 | N/A | N/A | streaming | N/A | N/A | N/A
我必须通过考虑移动设备的各种属性,找到最相似或最独特的设备或从数据集中删除重复的移动设备。
我已经探索了许多相似性算法,如Jaccard相似性,余弦相似性。 Levenshtein距离,但它们似乎对具有相同数据类型的属性起作用。
请建议一种可以在这种类型的混合数据类型数据集上工作的算法或方法,同时考虑几乎所有属性。
答案 0 :(得分:1)
您可以计算每行的哈希码。
然后使用哈希码的差异作为相似性度量。
显然,这取决于所有属性。
非常适合查找重复项!
它可能不适合您的应用程序 - 但您没有指定对您的应用程序有用的内容。