标签: python r cluster-analysis data-mining
我想用DBSCAN算法对数据集进行聚类。问题是数据具有邮政编码和货币等名义属性。知道如何处理这些值吗?
答案 0 :(得分:0)
两个选项:
定义自定义距离函数,根据需要处理这些属性。例如,使用邮政编码,您需要查找距离。
使用广义DBSCAN并定义自定义邻居谓词。它可能需要例如邮政编码是邻居和属性值相似。
不要对邮政编码使用单热编码。这没有多大意义。您也可以在分类属性上使用汉明距离,这样更有效(参见选项1)。