我想以与reCaptcha项目类似的方式将书籍数字化。是否已经有一个系统用于输入图像,然后输出在文字周围裁剪的小图像?关于如何做到这一点的任何想法?
答案 0 :(得分:0)
您应该查看reCaptcha可能基于的Tesseract OCR项目。它能够输出识别出的单词的坐标。然后你将页面裁剪成那些坐标,你就完成了。
答案 1 :(得分:0)
如果您只想将图像分成多个图像,每个图像一个单词,您可以尝试找到单词边界框,然后将这些坐标用于分割。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每条线来完成。可以在本文中找到描述该想法的一些示例算法:“通过边界框投影技术进行文档页面分解”(http://haralick.org/conferences/71281119.pdf)。您可以在OpenCV中实现它。
另外,您可以使用beppe9000提到的Tessaract。也许这会有所帮助:Getting the bounding box of the recognized words using python-tesseract
但是,即使你只想要边界框,你也可以获得训练OCR的全部复杂性。