我正在尝试创建一个从图像中生成可编辑文档文件(doc或pdf)的应用程序。我打算用tesseract来提取文本。但我还不确定如何获得文本的基本格式(大小,粗体,斜体,下划线)和&可能存在于文档图像中的图像。我打算使用J2EE来制作基于Web的应用程序(必须使用J2EE)。我想我可能能够使用OpenCV识别文档的组件和格式,但我不太确定。
答案 0 :(得分:1)
鉴于您计划使用Tesseract作为基本OCR功能,请尝试查看hORC格式化输出。这包括很多关于font-size,font-face,position等的附加信息。
您可以在此处找到hOCR的说明: https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924
如果这不成功,则取决于您想要投入Tesseract的努力程度。它的内部API(通过Tess4J以Java形式提供)确实提供了重建页面布局所需的大部分信息。