如何在计算相似性/不相似性时给予权重

时间:2014-10-05 20:31:54

标签: statistics normalization data-mining recommendation-engine

如果我有以下数据:

Empid   Salary  Age Experience

1       25000   24  4
2       40000   27  5
3       55000   32  7
4       27000   25  5
5       53000   30  5

如果我使用Min-Max标准化技术对所有上述值进行标准化,以便所有值都在0和1之间,以获得以下标准化数据:

Empid   Salary        Age       Experience
1      0.0000333      0.1000000 0.2000000
2      0.5000000      0.4000000 0.4000000
3      1.0000000      0.9000000 0.8000000
4      0.0700000      0.2000000 0.4000000
5      0.9300000      0.7000000 0.4000000

如果我们现在计算每位员工与其他员工的欧氏距离。它在下表中给出。

归一化后的欧几里德距离

    1           2           3           4           5
1   0.0000000   0.6164144   1.4141664   0.2333321   1.1273841
2   0.6164144   0.0000000   0.8123833   0.4772345   0.5270225
3   1.4141664   0.8123833   0.0000000   1.2332863   0.4521547
4   0.2333321   0.4772345   1.2332863   0.0000000   1.0005054
5   1.1273841   0.5270225   0.4521547   1.0005054   0.0000000

我的问题是,我们可以在计算相似性/不相似性时给予权重。例如:我想给年龄变量更多的权重,因为它可能是一个强有力的预测因子。你能否就这种情况提出你的建议?

有哪些技术可以使一种财产的权重超过另一种财产

请告知

谢谢!

1 个答案:

答案 0 :(得分:1)

标准化=功能加权

至少当我们谈论线性规范化和特征加权时。

如果你想在“年龄”属性上加权两倍,请将其标准化为[0; 2],而不是[0; 1]。

是的,就这么简单。

或者之后在矢量上使用常规加权欧氏距离。但在正常化期间这样做会更便宜。