我有这个用例,想要围绕它构建一个ML模型。 根据购买历史记录,我必须预测用户是否会购买产品。
产品具有以下属性:
用户对每种颜色,priceBucket,Itemcategory都有一些喜欢 例如:用户u1喜欢黑色30%,红色20%,鞋子喜欢10%。 此%权益是根据用户的购买历史计算的。
现在假设我们在所有产品中匹配用户u1的个人资料,我们必须预测用户是否会购买该产品。
ItemCategory PriceBucket Color Buy item1 30% 20% 10% 1 item2 20% 15% 30% 0 item3 10% 50% 40% 1
买1/0表示用户是否实际购买过此商品。
我尝试使用tensorFlow的LinearClassifier,但精度非常低。 请建议在这里使用什么型号。
答案 0 :(得分:0)
准确度较低的原因很多。 我建议你在将数据输入线性回归模型之前先做一些预处理步骤。
由于您的数据中只有3个维度/功能,因此您无法从中获取更多信息。您的模型极有可能过度适应/不适应这三个类别中的任何一个特征。如果有的话,尝试添加更多功能,或者增加训练样本的数量,但由于维度较低,仍然可以获得不错的结果。
尝试使用其他整体模型进行一些实验,如决策树分类器,高斯朴素贝叶斯,梯度增强分类器,SVM,随机森林,K近邻,并执行交叉验证以评估每个分类器的性能。
答案 1 :(得分:0)
准确度低的原因之一可能是数据集不平衡,即买入值(0,1)的比率大于2.如果是这种情况,请使用简单的技术,例如欠采样然后尝试不同的分类模型就可以了。在你的情况下,随机森林可能会做得很好;玩弄参数以避免过度/过度拟合。