我们有一个包含10,000个手动标记实例的数据集,以及一个经过所有这些数据培训的分类器。 然后对所有这些数据评估分类器以获得95%的成功率。
这种方法究竟出了什么问题?只是统计95%在这个设置中不是很有用吗?这个95%的数字还能有一些价值吗?虽然我理解这一点,从理论上讲,这不是一个好主意,但我在这方面没有足够的经验来确定。另请注意,我既没有建立也没有评估有问题的分类器。
除了常识之外,有人可以给我一个非常可靠,权威的参考,说这个设置有点不对吗?
例如,this page确实说
使用用于培训的数据评估模型性能在数据挖掘中是不可接受的,因为它可以轻松生成过度乐观和过度拟合的模型。
然而,这不是权威参考。事实上,这个引用显然是错误的,因为评估与生成过度拟合的模型无关。它可能会产生过于乐观的数据科学家,他们会选择错误的模型,但特定的评估策略与过度拟合模型本身无关。