在以下场景中使用什么样的分类器?

时间:2015-03-06 17:22:22

标签: machine-learning classification

如果我正在建立一个天气预报器,预测明天是否会下雪,很容易直接回答“NO”。

显然,如果你在一年中的每一天都对这样的分类器进行评估,那么准确度为95%是正确的(考虑到我构建它并在很少下雪的区域进行测试)。

当然,这是一个如此愚蠢的分类器,即使它具有95%的准确度,因为显然更重要的是预测它是否会在冬季月(1月和2月)下雪,而不是任何其他月份。

所以,如果我在前一天收集了很多功能来预测它是否会在第二天下雪,那么考虑到会有一个功能说明一年中哪个月/哪一周,如何权衡这一特定功能并设计分类器来解决这个实际问题?

1 个答案:

答案 0 :(得分:2)

  

当然,这是一个如此愚蠢的分类器,即使它具有95%的准确度,因为显然更重要的是预测它是否会在冬季月(1月和2月)下雪,而不是任何其他月份。

在您的情况下,准确度可能不是最好的衡量标准。请考虑使用precision, recallF1 score

  

如何权衡这一特定功能并设计分类器来解决这个实际问题?

我认为不应该以任何方式对任何特定功能进行加权。您应该让算法执行此操作并使用cross validation来确定模型的最佳参数,以避免过度拟合。

如果您说jan和feb是最重要的月份,请考虑仅在两个月内应用您的模型。如果那是不可能的,那么根据他们的数量,考虑给你的(下雨/不下雨)赋予不同的权重。 This question讨论了这个问题 - 无论您选择哪种语言,这个概念都应该是可以理解的。