这个问题是分类还是回归?

时间:2020-03-25 02:10:22

标签: machine-learning regression classification

在吴安德(Andrew Ng)的一次演讲中,他询问以下问题是分类问题还是回归问题。答:这是一个回归问题。

您有大量相同的物品。您想预测如何 其中许多产品将在未来3个月内出售。

好像我缺少什么。据我了解,这应该是分类问题。原因是我们必须将每个项目分为两类,即是否可以出售,它们是离散值而不是连续值。

不确定我的理解力在哪里。

1 个答案:

答案 0 :(得分:1)

您的想法是,您拥有一个具有各自功能的商品数据库,并希望预测是否会售出每件商品。最后,您只需要计算可以出售的物品数量即可。如果用这种方式解决问题,那么那的确是分类问题。

但是,请注意问题中的以下句子:

您有大量相同的物品。

相同的项目表示所有项目将具有完全相同的功能。如果您想出一个二进制分类器来告诉您是否可以出售产品,由于所有功能值都完全相同,因此您的分类器会将所有商品归为同一类别。

我想,要解决此问题,例如,您可能可以访问过去5年每月的已售商品时间序列。然后,您将不得不处理这些数据并插值到将来。您不会对每个项目进行单独分类,而是实际计算一个数值,该数值指示未来1个月,2个月和3个月的已售物品数量。

根据Pattern Recognition and Machine Learning (Christopher M. Bishop, 2006)

诸如数字识别示例的案例,其目的是将每个输入向量分配给有限数量的离散类别之一,这被称为分类问题。如果所需的输出包含一个或多个连续变量,则该任务称为回归

最重要的是,了解统计资料中定义的categorical, ordinal, and numerical variables之间的区别很重要:

类别变量(有时称为名义变量)是具有两个或多个类别的变量,但是类别没有内在的顺序。例如,性别是具有两个类别(男性和女性)的类别变量,并且类别没有内在的顺序。

(...)

序数变量类似于分类变量。两者之间的区别在于变量有明确的顺序。例如,假设您的经济状况是变量,分为三个类别(低,中和高)。除了可以将人分为这三个类别外,您还可以将类别排序为低,中和高。

(...)

数值变量与序数变量相似,不同之处在于数值变量的值之间的间隔相等。例如,假设您有一个变量,例如以美元为单位的年收入,我们有三个人分别赚了10,000美元,15,000美元和20,000美元。

尽管最终结果将是一个整数(一组离散数字),但请注意,它仍然是numerical value, not a category。您可以用数学方法处理数值(例如,计算明年的平均销售数量,找到未来3个月内的最高销售数量...),但不能对离散类别执行此操作(例如,平均一部手机和一部电话?)

分类问题是指输出是分类的还是有序的(按Bishop的分类是离散的)。回归问题输出数值(根据Bishop,连续变量)。

您的系统可能仅限于输出整数,而不是输出实数,但不会改变变量的性质。因此,您的问题是回归问题。