ocr - Google图书如何查找文字区域？

Google图书如何查找文字区域？

时间：2009-01-15 05:11:52

标签： ocr google-books

计算机视觉中的一个具有挑战性的主题是处理文档扫描。通常，这涉及许多步骤，例如噪声消除，颜色分析，二值化，文本块识别，OCR，然后可能进行一些上下文分析和校正。

我很好奇是否有人理解，知道或可以指出我在OCR阶段之前如何识别文本块的文献。任何见解？

2 个答案:

答案 0 :(得分：2)

我相信Google会将Tesseract OCR引擎与另一个名为Ocropus的工具结合使用，这两个工具都是开源的。我不知道它们是如何工作的，但您可能有兴趣查看代码，可在上面的链接中找到。

答案 1 :(得分：0)

这是来自我图书馆数字化专家的二手资料，但似乎Google的方法是通过自动化过程抛出一切，看起来像文字的任何东西，不要过于关注裁剪单个图像或做很多语义analasys来寻找图片标题等等。他们可能会做一些不明显的微妙事情，但从表面上看，他们肯定会为数量而不是质量，这对他们的目的来说是明智的，IMO。 / p>