Question

假设您正在尝试根据某些功能对房屋进行分类：

但并非所有房屋都有车库。但是当他们这样做时，他们的总面积会产生非常明显的特征。利用此功能中包含的信息有什么好方法？

Answer 1

您可以合并一个零/一个虚拟变量，指示是否有车库，以及车库区域与假人的交叉产品（对于没有车库的房屋，将区域设置为零）。

Answer 2

最好的方法是使用所有功能构建数据集，在大多数情况下，可以将那些不可用的列填充为零。

使用您的示例，它将类似于：

Total area  Number of rooms Garage area
100         2               0
300         2               5
125         1               1.5

通常，您选择的学习算法足够强大，可以使用这些零来正确地对该条目进行分类。毕竟，缺乏价值仍然是算法的信息。如果您的数据偏斜，这可能会成为一个问题，但在这种情况下，您还需要解决偏斜问题。

编辑：

我只是意识到还有另一个答案，评论你害怕使用零，因为这可能与小车库相混淆。虽然我仍然没有看到问题（小车库和零之间应该有足够的差异），你仍然可以使用相同的结构标记不存在区车库的负数（比方说-1）。

另一个答案中指出的解决方案也是完全合理的，有一个额外的功能，指示房子是否有车库将工作正常（特别是在基于决策树的算法）。我只是希望保持数据的维度尽可能低，但最后这更像是一种偏好而非技术决策。

Answer 3

您需要合并零指标功能。也就是说，当车库大小为0时，该特征为1，对于任何其他值，该特征为0。

您的特征向量将是：地区| num_rooms | garage_size | garage_exists

您的机器学习算法将能够看到车库大小的这种（非线性）特征。