如何将KNN算法应用于分类变量?

时间:2016-09-09 16:31:18

标签: r machine-learning knn categorical-data

我正在研究数据集,其中大多数变量都是分类变量。一些变量甚至有5个类别。是否有可能在这种情况下实现knn算法?如果是这样,我该如何处理这些分类变量?我必须将它们标准化吗?我正在使用R,如果有人可以指导我来源,那将是一种帮助。

1 个答案:

答案 0 :(得分:3)

您的第一步是决定观察之间的距离/相异度函数。

一种选择是将分类变量转换为虚拟二进制变量,然后计算每个行对之间的Jaccard距离。 Here是这些步骤的简单教程。

一旦定义了距离,就可以像往常一样继续使用KNN算法。我不确定是否已经在R中实现了这个包,或者你是否应该自己编程。不应该那么复杂