在不同范围内具有不同含义的功能

时间:2017-04-01 18:41:46

标签: machine-learning

在机器学习中,如何处理像薪水这样的功能。例如,如果我通过基于特征测量数据点之间的距离来应用k-最近邻居。假设我们有两点薪水2000和6000.他们之间的差异是4000.让我们看看薪水102000和106000的另外两个点。这里的差异仍然是4000美元,但我们人类认为最后两点更近或更相似前两点。

如何在机器学习中融入这样的直觉?

1 个答案:

答案 0 :(得分:1)

您可以执行以下操作之一(以及更多内容):

  • 使用日志功能转换功能(因此2000和6000将远远超过102000和106000)
  • 将功能二进制化为多个存储桶(您可以为每个工资范围创建一个功能,而您就是创建存储桶的功能)
  • 改变k-nn中的相似度函数以查看相对而不是绝对差值