为什么EMNIST ByMerge和Balanced数据集每个都有47个类?

时间:2020-01-08 02:48:04

标签: deep-learning dataset

我正在将EMNIST用作使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/下载了数据集(使用pip install emnist)。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset,其描述如下:

EMNIST类别:814,255个字符。 62个不平衡的班级。

EMNIST ByMerge:814,255个字符。 47个不平衡的班级。

EMNIST平衡:131,600个字符。 47个平衡班。

EMNIST字母:145,600个字符。 26个平衡班。

EMNIST数字:2​​80,000个字符。 10个平衡班。

EMNIST MNIST:70,000个字符。 10个平衡班。

例如,62个类别中的大多数由10位数字,26个大写字母和26个小写字母组成。但是对于ByMerge和Balanced,我们有47个。

我自己查看了数据,发现10位数字,26个字母(大写和小写的混合),然后据我所知其余11个是随机的小写字母('a','b','d ','e','f','g','h','n','q','r','t')。

有人知道为什么要特别列出这11个额外内容吗?

2 个答案:

答案 0 :(得分:2)

我不确定这是否是正确的答案,但这是我的猜测。诸如“ C”或“ S”之类的字符具有非常相似的大写和小写字母。即使对于人类,如果您仅看到一个“ C”或“ S”,也很难区分大写字母和小写字母。这就是为什么我相信EMNIST的ByMerge拆分的创建者决定排除这样的字母,而只包括“ A”或“ R”之类的字母,它们看起来与小写字母完全不同的原因。

供参考:
A,B,C,D,E,F,G,H,I,J,K
a,b,c,d,e,f,g,h,i,j,k

其中一些字母看起来非常相似(例如C和K),而另一些看起来不相似(例如b和g)。

答案 1 :(得分:0)

此后,我通过研究论文EMNIST找到了这个问题的答案:MNIST是G. Cohen手写信件的扩展(可在此处找到:https://arxiv.org/pdf/1702.05373v1.pdf)。

这说明许多字母在字符识别方面存在问题,因为大小写变体非常相似。这会导致在尝试对这些字母进行分类时出现问题。为了解决这个问题,他们合并了他们认为这有问题的字母。

摘自论文

根据NIST的建议,合并的类用于字母C, I,J,K,L,M,O,P,S,U,V,W,X,Y和Z。

这说明了缺少的类(尽管我希望看到一个62个平衡类选项或一个36个类选项,其中所有字母都合并了。)