可以使用神经网络来预测特定时间戳中的集合

时间:2016-07-08 05:54:31

标签: machine-learning neural-network classification prediction

我有一个市场交易数据集,包括时间戳和货物如下。

John总是在Super Market购买牛奶和面包。除此之外,他还购买了以下产品:

  • 周一,约翰买了牛奶,面包{啤酒,巧克力}。
  • 周二,约翰买了牛奶,面包{土豆}。
  • 周三,约翰买了牛奶,面包{巧克力,牛油果,花生}。

我们能回答这个问题:“他星期四会买什么?”。

例如:他将在周四购买除啤酒和面包外的{啤酒,鳄梨}。

我认为这是一种多元回归。在这种情况下,我可以使用哪种模型来预测一组商品?

3 个答案:

答案 0 :(得分:0)

如果我正确理解您的问题,那么它就是多标签分类。

你有一些输入功能(dayofweek,HasBoughtMilk HasBoughtBread等)。而且你想要根据它们预测其他几个标签(啤酒,鳄梨)。您可以轻松地使用sklearn执行此操作,它支持多标记分类。

如果您想考虑前几天购买的产品(因为它可能会影响您的标签),您可以通过两种方式实现这一目标:

1)添加二进制文件等合成功能,这些功能已在本周显示“HasBoughtBread” 2)或使用擅长处理时间序列的RNN。

答案 1 :(得分:0)

您所暴露的问题似乎是随机森林的教科书案例。您尝试表达的推理规则非常适合决策树。随机森林将为您提供灵活的模型,并快速培训。

当然这不是唯一的方法,你可以使用SVM或像RNN这样的深度学习,但感觉就像用火箭筒为我拍苍蝇一样。

干杯,

昆汀

答案 2 :(得分:0)

这取决于您尝试建模的实际因素。某些物品是否相互依赖?数据中是否有实际的时间元素,或者我们只是习惯推断它?

假设你有一个时间元素,你肯定会想要一些时间序列分析顺序,一个购买顺序,也许是实际的时间滞后。例如,如果约翰有一天没有去商店,他的购买会怎样?我们需要了解一些东西被买的频率吗?一个产品购买是否会加速或推迟另一个?

这些注意事项建议预处理数据(时间滞后)或某种RNN,LSTM或Q-net延迟。朴素贝叶斯或随机森林可能会有所帮助,但你仍然需要先预先处理时间关系。