如果我正在建立一个天气预报器,预测明天是否会下雪,很容易直接回答“NO”。
显然,如果你在一年中的每一天都对这样的分类器进行评估,那么准确度为95%是正确的(考虑到我构建它并在很少下雪的区域进行测试)。
当然,这是一个如此愚蠢的分类器,即使它具有95%的准确度,因为显然更重要的是预测它是否会在冬季月(1月和2月)下雪,而不是任何其他月份。
所以,如果我在前一天收集了很多功能来预测它是否会在第二天下雪,那么考虑到会有一个功能说明一年中哪个月/哪一周,如何权衡这一特定功能并设计分类器来解决这个实际问题?
答案 0 :(得分:2)
当然,这是一个如此愚蠢的分类器,即使它具有95%的准确度,因为显然更重要的是预测它是否会在冬季月(1月和2月)下雪,而不是任何其他月份。
在您的情况下,准确度可能不是最好的衡量标准。请考虑使用precision, recall和F1 score。
如何权衡这一特定功能并设计分类器来解决这个实际问题?
我认为你不应该以任何方式对任何特定功能进行加权。您应该让算法执行此操作并使用cross validation来确定模型的最佳参数,以避免过度拟合。
如果您说jan和feb是最重要的月份,请考虑仅在两个月内应用您的模型。如果那是不可能的,那么根据他们的数量,考虑给你的类(下雨/不下雨)赋予不同的权重。 This question讨论了这个问题 - 无论您选择哪种语言,这个概念都应该是可以理解的。