应用错误收集

数据挖掘：通过DBSCAN算法对名义属性进行聚类

时间：2016-07-21 08:16:32

标签： python r cluster-analysis data-mining

我想用DBSCAN算法对数据集进行聚类。问题是数据具有邮政编码和货币等名义属性。知道如何处理这些值吗？

1 个答案:

答案 0 :(得分：0)

两个选项：

定义自定义距离函数，根据需要处理这些属性。例如，使用邮政编码，您需要查找距离。
使用广义DBSCAN并定义自定义邻居谓词。它可能需要例如邮政编码是邻居和属性值相似。

不要对邮政编码使用单热编码。这没有多大意义。您也可以在分类属性上使用汉明距离，这样更有效（参见选项1）。