应用错误收集

为什么EMNIST ByMerge和Balanced数据集每个都有47个类？

时间：2020-01-08 02:48:04

标签： deep-learning dataset

我正在将EMNIST用作使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/下载了数据集（使用pip install emnist）。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset，其描述如下：

EMNIST类别：814,255个字符。 62个不平衡的班级。

EMNIST ByMerge：814,255个字符。 47个不平衡的班级。

EMNIST平衡：131,600个字符。 47个平衡班。

EMNIST字母：145,600个字符。 26个平衡班。

EMNIST数字：280,000个字符。 10个平衡班。

EMNIST MNIST：70,000个字符。 10个平衡班。

例如，62个类别中的大多数由10位数字，26个大写字母和26个小写字母组成。但是对于ByMerge和Balanced，我们有47个。

我自己查看了数据，发现10位数字，26个字母（大写和小写的混合），然后据我所知其余11个是随机的小写字母（'a'，'b'，'d '，'e'，'f'，'g'，'h'，'n'，'q'，'r'，'t'）。

有人知道为什么要特别列出这11个额外内容吗？

2 个答案:

答案 0 :(得分：2)

我不确定这是否是正确的答案，但这是我的猜测。诸如“ C”或“ S”之类的字符具有非常相似的大写和小写字母。即使对于人类，如果您仅看到一个“ C”或“ S”，也很难区分大写字母和小写字母。这就是为什么我相信EMNIST的ByMerge拆分的创建者决定排除这样的字母，而只包括“ A”或“ R”之类的字母，它们看起来与小写字母完全不同的原因。

供参考：
A，B，C，D，E，F，G，H，I，J，K
a，b，c，d，e，f，g，h，i，j，k

其中一些字母看起来非常相似（例如C和K），而另一些看起来不相似（例如b和g）。

答案 1 :(得分：0)

此后，我通过研究论文EMNIST找到了这个问题的答案：MNIST是G. Cohen手写信件的扩展（可在此处找到：https://arxiv.org/pdf/1702.05373v1.pdf）。

这说明许多字母在字符识别方面存在问题，因为大小写变体非常相似。这会导致在尝试对这些字母进行分类时出现问题。为了解决这个问题，他们合并了他们认为这有问题的字母。

摘自论文

根据NIST的建议，合并的类用于字母C， I，J，K，L，M，O，P，S，U，V，W，X，Y和Z。

这说明了缺少的类（尽管我希望看到一个62个平衡类选项或一个36个类选项，其中所有字母都合并了。）