计算机视觉中的一个具有挑战性的主题是处理文档扫描。通常,这涉及许多步骤,例如噪声消除,颜色分析,二值化,文本块识别,OCR,然后可能进行一些上下文分析和校正。
我很好奇是否有人理解,知道或可以指出我在OCR阶段之前如何识别文本块的文献。任何见解?
答案 0 :(得分:2)
我相信Google会将Tesseract OCR引擎与另一个名为Ocropus的工具结合使用,这两个工具都是开源的。我不知道它们是如何工作的,但您可能有兴趣查看代码,可在上面的链接中找到。
答案 1 :(得分:0)
这是来自我图书馆数字化专家的二手资料,但似乎Google的方法是通过自动化过程抛出一切,看起来像文字的任何东西,不要过于关注裁剪单个图像或做很多语义analasys来寻找图片标题等等。他们可能会做一些不明显的微妙事情,但从表面上看,他们肯定会为数量而不是质量,这对他们的目的来说是明智的,IMO。 / p>