应用错误收集

您如何估计分类器在测试数据上的性能？

时间：2014-06-19 20:33:17

标签： python machine-learning scikit-learn

我使用scikit制作有监督的分类器，我正在调整它以使我对标记数据具有良好的准确性。但是，我如何估计它对测试数据的影响程度（未标记）？

另外，如何判断我是否开始过度分类？

1 个答案:

答案 0 :(得分：2)

您无法在未标记的数据上对方法进行评分，因为您需要知道正确的答案。为了评估方法，您应该将您的列车集分成（新）列车和测试（例如，通过sklearn.cross_validation.train_test_split）。然后将模型安装到火车上并在测试时对其进行评分。如果您没有大量数据并且其中一些数据可能会对算法的性能产生负面影响，请使用cross validation。

由于过度拟合无法概括，低测试分数是一个很好的指标。

有关更多理论和其他方法，请查看this article。

你如何测试网站的性能？
你如何测试JavaScript代码？
你如何测试VBA代码的运行时间？
您如何估算项目的项目工作量/进度？
如何测试软件发布版本之间的代码性能？
如何对分类器进行单元测试？
你如何测试Magento的表现
您如何估计分类器在测试数据上的性能？
在压力测试中你能控制命中/秒吗？你怎么做压力测试
如何在DeepLearning中获得测试数据分类器的准确性

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？