相似性匹配技术用于查找具有非文本属性的类似客户

时间:2016-12-20 11:44:08

标签: machine-learning svm similarity

我是机器学习及其技术的初学者。

我需要建议建立一个模型。这是问题陈述 -

我拥有拥有特定公司X的所有产品(4个产品)的客户数据集 - 请将此设置称为Cust4。
我还有另一组客户,他们只拥有同一家公司X的一些产品(3个产品) - 请将此套件称为Cust3。
我为这两个数据集收集了大量“分类”和“数字”属性(没有文本数据)。
我想向拥有3种产品的客户销售更多产品(我希望将第4种产品再销售给他们),因此想知道有多相似 Cust3客户将它们与Cust4客户集进行比较,因此我仅向与Cust4集中的客户高度相似的客户销售。

是否有技术/适用的技术可以告诉我,例如Cust3中的特定测试客户是否与Cust4集相似70%或类似80%?< / em>的

到目前为止的研究 -
我试图将其构建为一类分类问题,并研究了One-Class分类,尤其是One-Class SVM(在R中)。 这确实构建了一个模型并对数据进行了分类,但是现在不支持概率预测(R包e1071)。

了解可能对这类问题有益的其他技术将会有所帮助。感谢所有帮助。

2 个答案:

答案 0 :(得分:1)

尝试高斯混合模型。为每个班级培训单独的GMM,然后您可以从该模型中获得任何输入样本的似然分数。

答案 1 :(得分:0)

但是,这是一个类别分类问题(或者看起来很相似),因为您正在寻找看起来像cust4的客户,并且由于您没有第4个产品的先验概率,您将无法获得概率。但是你可以在Cust3和Cust4的字符之间找到相似的距离。

为此,我建议你使用聚类算法: 1.Fist你为cust4(在一个或多个集群上)进行聚类,你将得到一个或多个质心(集群的中心)。

2.对于Cust3中的每个客户,您需要计算与此客户和每个质心的距离(您应该使用在群集中使用的相同变量)。如果距离超过某个阈值。所以这个客户对产品来说是开胃的。

还有其他技术,比如k最近的邻居,但计算时间非常昂贵。

希望能帮助你。