为什么Monk的问题测试设置比他们的列车更大?

时间:2018-01-27 19:56:01

标签: machine-learning

我意识到所有Monk's problems的测试集都比他们的列车组大。 为什么这个数据集的组织方式如此?我认为这很奇怪,即使它是用于模型比较的虚拟数据集。

Monk1 火车样品:124 测试样品:432

Monk2 火车样品:169 测试样品:432

Monk3 火车样品:122 测试样品:432

1 个答案:

答案 0 :(得分:2)

从机器学习的角度来看,测试集的大小并不重要。为什么打扰你?现实世界看起来完全相同:你有N个标记的样本用于训练,但是有N * 10,N * 1000,N * 10 ^ 9或更多真实案例,所以每个(手动标记,固定)测试集将一定是太小了。我们的目标是拥有一个代表性的集合,涵盖我们在现实世界中所期望的一切,如果它意味着拥有YUGE™测试集,那么您可以做的最好的事情就是让测试集大于训练集。

在这个特殊情况下(我不熟悉这个特定的任务)看起来你引用的网站上写着

  

有三个MONK的问题。所有MONK问题的域都是相同的(如下所述)。 MONK的一个问题是增加了噪音。对于每个问题,域已被分区为列车和测试集。

该论文链接如下

  

Wnek,J。和Michalski,R.S。," Comparing Symbolic and Subsymbolic Learning: Three Studies,"机器学习:多策略方法,卷。 4.,R.S。 Michalski和G. Tecuci(Eds。),Morgan Kaufmann,San Mateo,CA,1993。

第20页的

内容如下:

enter image description here

因此,在这个特定场景中,作者选择了不同的训练条件,因此选择了三个训练集。根据

   Leondes,Cornelius T.图像处理和模式识别。卷。 5. Elsevier,1998,pp 307

他们使用了所有432个可用样本进行培训,并对这些数据的子集进行了培训。

训练和测试数据之间的重叠被认为是不好的做法,但是我是谁来判断25年前我不熟悉的领域的研究。也许获取更多数据并进行彻底拆分太难了。