机器学习中的训练和测试集通常被讨论,好像它们具有相同的成分,例如将X%的示例作为训练集,其余为测试集。
然而,假设您正在尝试解决分类问题 - 为简单起见,比如二元分类,比如区分马匹和斑马的照片。这些课程并不常见。比如95%的照片是马匹,另外5%是斑马。如果你将这种混合物输入神经网络或任何其他机器学习算法,它将很快决定将所有东西归类为马,从而达到95%的准确度。
有成本敏感的神经网络这样的东西,可以比假阳性更严重地惩罚假阴性。但增加的复杂性增加了开发时间,并为错误提供了更多机会。
一种更简单,更通用的方法是重新采样,您可以在每个类的相同数量上训练网络。如果您有10,000张照片,请拍摄250张斑马图片,再加上250张马匹图片,将其用作训练集。其他250匹斑马可以和另外4,750匹马一起组成你的测试装置。这样,您就可以计算出测试集上的混淆矩阵,该矩阵将反映出野外火车网络的预期性能。
这意味着训练集和测试集有故意组成。
所以我的问题是:训练集和测试集具有不同的构成确实是正常的,这是不是经常提到?或者我错过了什么?