我在.tsv文件中有一组数据here。我写了几个分类器来决定一个给定的网站是短暂的还是常青树。
现在,我想让它们变得更好。通过与人交谈,我知道我的分类器“过度拟合”数据;我正在寻找的是一个可靠的方法来证明这一点,以便下次我编写一个分类器时,我将能够进行测试,看看我是否过度拟合或不合适。
这样做的最佳方式是什么?我对所有建议持开放态度!
我花了几周时间搜索这个主题,发现没有规范或可靠的方式来有效地做到这一点,所以任何回复都将受到赞赏。我将在这个问题上给予赏金。
编辑:
让我们假设我的clasifier吐出一个包含以下内容的.tsv:
the website UID<tab>the likelihood it is to be ephemeral or evergreen, 0 being ephemeral, 1 being evergreen<tab>whether the page is ephemeral or evergreen
答案 0 :(得分:3)
检查分类器“效率”的最简单方法是执行交叉验证:
另一个重要方面 - 如果您的分类器使用任何参数,某些常量,阈值等未经过培训,而是由用户提供,您不能只选择效果最佳的参数。上述程序。这个必须以某种方式自动化“在所有批次中训练你的分类器但是我”。换句话说 - 您不能使用测试数据来为模型拟合任何参数。完成此操作后,有四种可能的结果:
答案 1 :(得分:1)
人们试图处理过度拟合的方法很多: