我有一套300,000条历史客户购买数据记录。我已经开始了SSAS数据挖掘项目以确定最佳客户。
数据拆分: -90%非买家 -10%的买家
我使用各种各样的SSAS算法(决策树和神经网络显示出最佳提升)来探索我的数据。
该项目的目标是根据最有可能购买产品的人识别/评分客户。
目前,我已将所有记录用于此目的。感觉项目中缺少某些东西。我正在阅读有关数据挖掘的两本书。他们都讨论将数据挖掘分成不同的集合;然而,他们都没有解释如何实际拆分它们。
我相信我需要将可能的记录分成3组并重新运行ssas算法。
主要问题:
答案 0 :(得分:2)
您的设置的划分可以随机完成,因为您的数据集很大且买家数量不会太低(10%)。但是,如果您想确定您的套装具有代表性,您可以将80%的买家样品和80%的非买家样品混合起来,并将它们混合起来构建一个包含80%总数据集的培训集,并且它具有买方 - 非买方的相同比率作为使子集具有代表性的原始数据集。您可能希望将数据集除以两个子集,而不是三个:训练,交叉验证和测试。如果您按照说法使用neural network
,则应使用交叉验证子集来调整模型(体重衰减,学习率,动量......)。
关于你的第二个问题,你可以使用你所说的神经网络并获取输出,如果你使用sigmoid作为输出层中的激活函数,它将在[0,1]的范围内,作为概率。我还建议您查看collaborative filtering
此任务,因为它可以帮助您了解哪些产品可能是有兴趣使用您对其他具有类似偏好的买家的知识的客户。