我是机器学习及其技术的初学者。
我需要建议建立一个模型。这是问题陈述 -
我拥有拥有特定公司X的所有产品(4个产品)的客户数据集 - 请将此设置称为Cust4。
我还有另一组客户,他们只拥有同一家公司X的一些产品(3个产品) - 请将此套件称为Cust3。
我为这两个数据集收集了大量“分类”和“数字”属性(没有文本数据)。
我想向拥有3种产品的客户销售更多产品(我希望将第4种产品再销售给他们),因此想知道有多相似
Cust3客户将它们与Cust4客户集进行比较,因此我仅向与Cust4集中的客户高度相似的客户销售。
是否有技术/适用的技术可以告诉我,例如Cust3中的特定测试客户是否与Cust4集相似70%或类似80%?< / em>的
到目前为止的研究 -了解可能对这类问题有益的其他技术将会有所帮助。感谢所有帮助。
答案 0 :(得分:1)
尝试高斯混合模型。为每个班级培训单独的GMM,然后您可以从该模型中获得任何输入样本的似然分数。
答案 1 :(得分:0)
为此,我建议你使用聚类算法: 1.Fist你为cust4(在一个或多个集群上)进行聚类,你将得到一个或多个质心(集群的中心)。
2.对于Cust3中的每个客户,您需要计算与此客户和每个质心的距离(您应该使用在群集中使用的相同变量)。如果距离超过某个阈值。所以这个客户对产品来说是开胃的。
还有其他技术,比如k最近的邻居,但计算时间非常昂贵。
希望能帮助你。