我正在研究数据集,其中大多数变量都是分类变量。一些变量甚至有5个类别。是否有可能在这种情况下实现knn算法?如果是这样,我该如何处理这些分类变量?我必须将它们标准化吗?我正在使用R,如果有人可以指导我来源,那将是一种帮助。
答案 0 :(得分:3)
您的第一步是决定观察之间的距离/相异度函数。
一种选择是将分类变量转换为虚拟二进制变量,然后计算每个行对之间的Jaccard距离。 Here是这些步骤的简单教程。
一旦定义了距离,就可以像往常一样继续使用KNN算法。我不确定是否已经在R中实现了这个包,或者你是否应该自己编程。不应该那么复杂