我正在努力寻找一致标准化的最佳方法。
基本上我有一定数量的实例,每个实例都有一定数量的具有浮动值的属性:
例如:
At1 At2 At3
0.1 0.3 3.0
0.1 4.5 2.1
...
我想将每个属性映射到整数值,试图与数据保持一致。
我试图简单地为每个属性划分该属性的max值和min值之间的差值,将其除以10之类的任意值,然后将每个属性的所有double值映射到它的相应间隔的索引,并通过这样做,将我的属性规范化为1到10之间的整数值...
但我希望一种方法可以使用每个属性的最短间隔数而不会失去一致性,例如,如果我有一个具有三个可能值的属性:1.2,3.5和223.3通过我的方法使用例如间隔在10个可能的值中,我将为该属性提供大量不必要的间隔,以及大量浪费的空间......
有什么建议吗?
答案 0 :(得分:2)
我认为你在encoding询问compression,或者更具体地说,如何找到整数的实数为1.1的地图。
Huffman encoding可能是最着名的,并且可以被证明是最小的(在您的术语中具有最少的浪费间隔)。 Range encoding也很受欢迎。