如果我有以下数据:
Empid Salary Age Experience
1 25000 24 4
2 40000 27 5
3 55000 32 7
4 27000 25 5
5 53000 30 5
如果我使用Min-Max标准化技术对所有上述值进行标准化,以便所有值都在0和1之间,以获得以下标准化数据:
Empid Salary Age Experience
1 0.0000333 0.1000000 0.2000000
2 0.5000000 0.4000000 0.4000000
3 1.0000000 0.9000000 0.8000000
4 0.0700000 0.2000000 0.4000000
5 0.9300000 0.7000000 0.4000000
如果我们现在计算每位员工与其他员工的欧氏距离。它在下表中给出。
归一化后的欧几里德距离
1 2 3 4 5
1 0.0000000 0.6164144 1.4141664 0.2333321 1.1273841
2 0.6164144 0.0000000 0.8123833 0.4772345 0.5270225
3 1.4141664 0.8123833 0.0000000 1.2332863 0.4521547
4 0.2333321 0.4772345 1.2332863 0.0000000 1.0005054
5 1.1273841 0.5270225 0.4521547 1.0005054 0.0000000
我的问题是,我们可以在计算相似性/不相似性时给予权重。例如:我想给年龄变量更多的权重,因为它可能是一个强有力的预测因子。你能否就这种情况提出你的建议?
有哪些技术可以使一种财产的权重超过另一种财产
请告知
谢谢!
答案 0 :(得分:1)
标准化=功能加权
至少当我们谈论线性规范化和特征加权时。
如果你想在“年龄”属性上加权两倍,请将其标准化为[0; 2],而不是[0; 1]。
是的,就这么简单。
或者之后在矢量上使用常规加权欧氏距离。但在正常化期间这样做会更便宜。