我正在尝试解决目标变量为数字的ML问题,比方说城市中的污染水平。但是客户不希望预测污染物的实际数量,而只是想知道基于商定阈值的污染水平是高还是低。 (如果PM2.5级别高于200,则为高,否则为低。)
我应该将其视为回归问题,将PM2.5数值作为目标,还是作为分类问题,根据阈值做出高/低污染水平的另一个特征,并使用该二进制变量作为目标?两者的优点和缺点分别是什么?对精度有什么影响?
答案 0 :(得分:1)
如果您的客户对知道实际值不感兴趣,我建议您使用分类模型。
您可以使用this方法将目标变量转换为二进制值,并遵循分类路径。
分类将有较高的准确性,因为该模型将更多的精力集中在分类边界上,而回归模型可能会偏向于正确地预测异常值/噪声数据点!