我一直在阅读OCR这样的论文https://arxiv.org/pdf/1704.08628.pdf,我很难找到实际生成这些数据集的方法。
在链接的论文中,他们使用回归量来预测一行文本的起始位置(一个点)和高度。然后,基于该起始点和高度,第二网络执行OCR和线路末端检测。我意识到这是一个非常简化的解释,但是它的数据集包括(至少部分)整页文本'图像',每个行开始的位置,然后是给定行上的文本转录。或者,他们可能只是使用边界框的左下角作为起点,并将框的高度用作单词高度(如果以前使用边界框准备数据,则无需重新注释)。
那么这样的数据集是如何实际创建的呢?看看其他数据集,似乎有一些软件可以创建包含与每个图像相关的基本事实的XML文件,有人能指出我正确的方向吗?我一直在谷歌搜索并找到许多用于注释带有情感等文本的工具以及用于注释图像以进行分段的其他工具(对于像YOLO网络这样的东西),但是我想要创建类似于使用的Maurdoor数据集的空白在链接的文件中。
谢谢
答案 0 :(得分:1)
所以在提交之后,相关的线程窗口向我展示了我的谷歌搜索没有出现的许多线程。这个http://www.prima.cse.salford.ac.uk/tools软件似乎是我想要的,但我仍然希望听到其他想法。