将名义数据转换为数字数据

时间:2017-02-04 08:07:17

标签: dataset cluster-analysis numeric

我正在尝试在我的数据集上运行聚类算法。我的数据集是数据包集(源IP,目标,端口,类标签)。我想将这些数据从名义数据转换为数字数据。转换这些数据的正确技巧是什么?

1 个答案:

答案 0 :(得分:0)

通常的方法是执行一个热编码。虽然这显然在数字上对数据进行编码,但它存在一些问题。

  1. 增加了维度。这通常会导致可扩展性和歧视问题(点之间的距离变得太相似)
  2. 规范化和加权问题。典型的规范化策略(例如最小 - 最大缩放和标准化)不能按预期工作“
  3. 相关属性
  4. 处理新属性值
  5. 变量将是离散的。许多算法(如k-means)需要连续属性才能正常工作。
  6. 解释问题。例如。群集中心通常不会以有意义的方式映射回原始空间。