聚类+回归 - 正确的方法与否?

时间:2016-08-29 13:29:08

标签: algorithm machine-learning regression cluster-analysis data-mining

我的任务是预测销售商品的速度(例如,在一个类别中)。例如,客户输入他想要销售其商品的价格,并且算法应该显示它将以n天的输入价格出售。并且它应该有3个间隔的快速,中等和长期销售。如图所示:enter image description here

问题:我应该如何准备算法?

我的建议:使用聚类技术来理解这三个价格范围,然后解决每个聚类的回归任务以预测天数。这是一个正确的概念吗?

2 个答案:

答案 0 :(得分:1)

这里有两个问题,我认为每个问题的答案都在不同的领域:

  1. 根据输入价格,预测出售该物品需要多长时间。这是一个明确定义的预测问题,可以使用ML算法解决。例如使用整个数据集来训练和测试回归模型以进行预测。
  2. 将预测翻译成一个类:快速,中速或慢速销售。这个问题是面向产品的 - 似乎没有任何具体的数据允许你在这个翻译上训练分类器;我赞同@ anony-mousse使用无监督学习可能不会产生易于使用的结果。
  3. 您可以咨询您的用户或产品经理,使用合理的阈值(此处可能需要考虑项目类型,季节等),或者尝试获取一些额外的数据以培训有监督的分类器。< / p>

    E.g。如果他们认为卖出是快速,中等或慢速的话,你可以询问你的用户,售后。然后你将有一些数据用于阈值处理或分类。

答案 1 :(得分:0)

我建议您只需定义10天31天的缩短。保持简单

因为这些是用户想要理解的值。如果您使用群集,最终可能会产生0.31415天或类似的非直观值,无论如何都无法向用户解释。