为MLP和Hopfield网络选择训练和测试集

时间:2018-08-20 11:20:05

标签: neural-network training-data test-data

我对多层感知器(MLP)和Hopfield网络的训练和测试集的选择有疑问。

例如,假设我们获得了100种以位图格式给出的数字0-9模式。其中10个为完美数字,而其他90个则为失真数字。这些模式中的哪些将用于训练集,哪些将用于测试集?目的是对数字进行分类。

我想将Hopfield网络的 perfect 数字用作训练集,但是MLP呢?我想到的一种方法是采用70个变形的数字,并将它们用作训练集,同时将相应的完美数字用作目标。这种方法正确吗?

1 个答案:

答案 0 :(得分:0)

免责声明:我之前从未与Hopfield Networks合作过,所以我相信您对此的陈述,但是无论如何,它与答案的意义不大。
我还假设您要对数字进行分类,这是您在问题中未明确说明的内容。

关于适当的划分:除了很少的训练数据通常对于获得MLP的像样结果(甚至对于数字分类之类的简单任务)来说不是可行的数量之外,您不太可能会能够在大多数实际情况下根据质量“预先标记”您的训练数据。因此,您应该始终假设您正在处理的数据本身就是嘈杂的。一个很好的例子是data augmentation经常被用来丰富您的训练语料库。由于数据扩充可以由诸如以下的简单更改组成

  • 增加了噪音
  • 轻微旋转
  • 水平/垂直翻转(尽管后者只对数字有意义)

可以提高您的准确性,这表明视觉质量培训数量是两件事。当然,单靠数量本身并不能解决您的问题(尽管研究表明,数量至少为good idea to use very much data)本身并不是真的

此外,从网络的角度来看,您认为良好的表示形式可能有很大不同(尽管对于数字标签而言,这可能很容易分辨)。因此,一个不错的策略是简单地对您的训练/测试分组进行随机抽样。

我喜欢在预处理数据集时执行的某项操作,在完成拆分后,要检查每个类在拆分中是否均等地表示,因此您不会过大。 同样,我认为在测试和培训集中都拥有干净/高质量的数字图像可能是最有意义的,因为您既希望能够识别高质量的数字,又要使数字写得很乱,并且然后测试您是否真的可以识别它(使用测试仪)。