机器学习测试数据

时间:2019-04-02 16:13:10

标签: machine-learning classification

我是机器学习的新手,这可能是一个愚蠢的问题。

我已经实现了我的模型及其工作。我有一个关于在测试数据上运行它的问题。这是一个二进制分类问题。如果我知道测试数据中类的比例,如何使用它来改进模型或改进模型所作的预测? 因此,假设75%属于测试数据的1类,而25%属于测试数据的0类。

任何帮助都将不胜感激 谢谢

2 个答案:

答案 0 :(得分:1)

首先,第一件事是应该平衡您的数据。在机器学习中,问题范式测试数据经常被视为您一无所知的东西。 验证数据集可提供有关使用某些保留的数据集来改进模型的任何类型的信息。 查找验证数据集。为什么需要验证数据集,数据集的平衡。这些条款将帮助您继续前进。

答案 1 :(得分:0)

解决不平衡数据的方法有两种:算法级方法和数据级方法。

算法方法:如上所述,机器学习算法会平均惩罚误报率和误报率。一种应对方法是修改算法本身,以提高少数群体类别的预测性能。这可以通过基于识别的学习或成本敏感的学习来执行。随时查看Drummond&Holte(2003);埃尔坎(2001);和Manevitz&Yousef(2001),以防您想了解更多有关该主题的信息。

数据方法::这包括对数据进行重新采样以减轻类不平衡导致的影响。数据方法更灵活并允许使用最新算法,因此已在实践中广为接受。两种最常见的技术是过采样和欠采样。

过度采样会增加培训集中少数群体成员的数量。过度采样的优势在于,不会保留原始训练集中的信息,因为会保留少数和多数类别的所有观察结果。另一方面,它容易过度拟合。 与过采样相反,欠采样旨在减少多数采样的数量,以平衡类别分布。由于它正在从原始数据集中删除观察结果,因此可能会丢弃有用的信息。

有关更多参考信息,请访问:https://medium.com/james-blogs/handling-imbalanced-data-in-classification-problems-7de598c1059f