数据挖掘:通过DBSCAN算法对名义属性进行聚类

时间:2016-07-21 08:16:32

标签: python r cluster-analysis data-mining

我想用DBSCAN算法对数据集进行聚类。问题是数据具有邮政编码和货币等名义属性。知道如何处理这些值吗?

1 个答案:

答案 0 :(得分:0)

两个选项:

  1. 定义自定义距离函数,根据需要处理这些属性。例如,使用邮政编码,您需要查找距离。

  2. 使用广义DBSCAN并定义自定义邻居谓词。它可能需要例如邮政编码是邻居属性值相似。

  3. 不要对邮政编码使用单热编码。这没有多大意义。您也可以在分类属性上使用汉明距离,这样更有效(参见选项1)。