我是一名机器学习初学者,目前在Coursera上做Andrew Ng的机器学习课程。在讲座中,他问了一个简单的问题:你会将以下称为分类或回归问题吗?
您有大量相同的商品。你想预测多少 这些物品将在未来3个月内出售
我之所以选择分类是因为我认为我们只是预测会卖出(1)或者不会卖出(0)。但他说这是一个回归问题,因为有数千个相同的项目,它是一个连续的输出。我不明白它是如何连续输出的。在我看来,就像一个拥有数千个值的离散输出。有人可以向我解释一下吗?
答案 0 :(得分:1)
我不明白它是如何连续输出的。在我看来,它就像一个具有数千个值的离散输出。
嗯,这里连续输出没有正式的数学意义;严格来说,你的输出(某个整数值)是离散的是正确的,但这不是这个背景下的要点。
使这成为回归问题而不是分类问题的关键区别在于,在分类中,输出仅限于某些(通常少数)预定义值/水平;很容易看出这不是这种情况,因为销售的数量原则上可以是任何(整数)值,并且根据不同的类来考虑值18和19是没有意义的。
尝试将分类输出视为类别也可能有用,它们通常可能在它们之间没有序数关系;从这个角度来看,18和19之间的差异可以被认为是相同的18和856之间的差异(它们只是不同的类别);直觉上,显而易见的是,由于我们对销售的确切数量感兴趣,这些差异在它们之间是非常不同的,我们更倾向于错误预测“18”作为“19”而不是作为“856”......