应用错误收集

如何将扫描的页面分成像reCaptcha项目这样的单词？

时间：2015-09-27 11:39:12

标签： ocr scanning crowdsourcing crowdflower

我想以与reCaptcha项目类似的方式将书籍数字化。是否已经有一个系统用于输入图像，然后输出在文字周围裁剪的小图像？关于如何做到这一点的任何想法？

2 个答案:

答案 0 :(得分：0)

您应该查看reCaptcha可能基于的Tesseract OCR项目。它能够输出识别出的单词的坐标。然后你将页面裁剪成那些坐标，你就完成了。

答案 1 :(得分：0)

如果您只想将图像分成多个图像，每个图像一个单词，您可以尝试找到单词边界框，然后将这些坐标用于分割。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每条线来完成。可以在本文中找到描述该想法的一些示例算法：“通过边界框投影技术进行文档页面分解”（http://haralick.org/conferences/71281119.pdf）。您可以在OpenCV中实现它。

另外，您可以使用beppe9000提到的Tessaract。也许这会有所帮助：Getting the bounding box of the recognized words using python-tesseract

但是，即使你只想要边界框，你也可以获得训练OCR的全部复杂性。