机器学习-训练数据与“必须分类”数据

时间:2018-07-12 13:23:43

标签: machine-learning training-data test-data image-preprocessing

我对机器学习的数据预处理有一个普遍的问题。 我知道几乎必须将数据居中于0(均值减),将数据标准化(消除方差)。还有其他可能的技术。不必将其用于训练数据和验证数据集。

我遇到了以下问题。我的神经网络经过训练可以对图像中的特定形状进行分类,但如果我不将此预处理技术应用于必须分类的图像,则无法这样做。当然,这种“分类”图像不包含在训练集或验证集中。因此,我的问题是:

对要分类的数据进行归一化是正常的,还是没有这种技术的网络性能不好意味着我的模型在某种意义上是不好的,它不能归纳和过度拟合吗?

P.S。通过对“分类”图像使用归一化,我的模型表现很好(大约90%的准确度),而低于30%。

其他信息:模型:具有keras和张量流的卷积神经网络。

1 个答案:

答案 0 :(得分:0)

毋庸置疑(尽管在入门教程中很少明确提及,因此初学者经常感到沮丧),输入模型的新数据必须经过非常相同的预处理步骤 em>之后是训练(和测试)数据。

这里肯定会有一些常识:在所有的ML建模中,新的输入数据应与用于训练和测试的原始数据具有相同的“一般形式”;相反的情况(例如,您一直在尝试执行的操作),如果您停下来思考一下,您应该能够说服自己这没有什么意义……

以下答案可以帮助您阐明这一点,并在必要时说明逆变换的情况:

How to predict a function/table using Keras?

Getting very bad prediction with KerasRegressor