应用错误收集

时间：2019-05-02 12:10:57

标签： machine-learning

我正在尝试解决目标变量为数字的ML问题，比方说城市中的污染水平。但是客户不希望预测污染物的实际数量，而只是想知道基于商定阈值的污染水平是高还是低。（如果PM2.5级别高于200，则为高，否则为低。）

我应该将其视为回归问题，将PM2.5数值作为目标，还是作为分类问题，根据阈值做出高/低污染水平的另一个特征，并使用该二进制变量作为目标？两者的优点和缺点分别是什么？对精度有什么影响？

答案 0 :(得分：1)

如果您的客户对知道实际值不感兴趣，我建议您使用分类模型。

您可以使用this方法将目标变量转换为二进制值，并遵循分类路径。

分类将有较高的准确性，因为该模型将更多的精力集中在分类边界上，而回归模型可能会偏向于正确地预测异常值/噪声数据点！