关于本文所述的注意力 - OCR模型,我有几个问题:https://arxiv.org/pdf/1704.03549.pdf
某些背景
我的目标是让Attention-OCR了解在哪里查找并阅读扫描文档中的特定信息。它应该找到一个10位数字(在大多数情况下),前面是描述性标签。文件的布局和类型各不相同,因此我得出结论,在不使用注意机制的情况下,由于位置变化,任务无法解决......
我的第一个问题是:我是否正确地解释了该模型的功能?它能真正解决我的问题吗? (1)
到目前为止的进展
我设法在我自己的数据集上运行大约20万张大小为736x736的图像(非常大,虽然质量不是那么高,但缩小它会使文本无法识别)。不幸的是,我所拥有的机器只有一个GPU(Nvidia Quadro M4000),时间是一个重要方面。我很快就需要一个概念验证,所以我想我可以试着用一个小得多的数据集来推翻模型,只是为了看看它是否能够学习。
我设法用5k图像来推翻它 - 它成功地预测了每个图像。但是我对这个结果的解释有些担忧。似乎模型没有成功记住在哪里寻找所需的信息,但只是记住了所有的字符串,无论它们是否实际写在文档的某个地方。我的意思是,模型记住这一切并不奇怪,但我的问题是模型开始概括和实际学习注意力必须超过图像数量阈值? (2)
空间关注
我想谈的另一件事是空间关注机制。在实施模型的早期阶段,我认为论文中描述的空间注意机制已经包含在内并且有效。前段时间我偶然发现了由Alexander Gorban(Attention-OCR的开发人员之一)创建的tensorflow-repository中的一个问题,他声称默认情况下已禁用该问题。
所以我把它重新打开并意识到内存使用量变得难以置信地高。包含编码坐标的Tensor的空间维度从
改变[batch_size,width,height,features]
到
[batch_siz,width,height,features + width + height]
这导致内存消耗跳跃~10倍(考虑到图像的大小) - >买不起!导致我的第三个问题:我的任务是否需要空间注意机制? (3)
加分问题
是否可以使用禁用的坐标编码可视化静音和注意力图?