我有一个属于一类客户的数据集(比如C1) 我有另一组客户数据(C2),我需要找出这些客户与C1客户的相似程度。
这是我到目前为止所尝试的 -
1. R中的单类SVM(e1071)。但是,它不支持OneClass的概率
2.根据stackoverflow中类似问题的建议 - 我尝试使用核密度估计建立单类数据的非参数模型。
由于我的数据集包含数字和分类数据,因此我在R中使用np包。
我的问题是 -
我们(有意义的是)可以使用生成的DENSITIES作为对客户进行分类的措施吗?即,将核密度估计拟合到C1类
现在,从数据集C2中估算每个客户的密度,如果客户的密度在C1的最小和最大密度范围内,那么将其归类为属于C1类别,否则拒绝它?
感谢所有帮助。