应用错误收集

将图像转换为Doc

时间：2014-09-05 17:12:30

标签： opencv java-ee tesseract

我正在尝试创建一个从图像中生成可编辑文档文件（doc或pdf）的应用程序。我打算用tesseract来提取文本。但我还不确定如何获得文本的基本格式（大小，粗体，斜体，下划线）和＆amp;可能存在于文档图像中的图像。我打算使用J2EE来制作基于Web的应用程序（必须使用J2EE）。我想我可能能够使用OpenCV识别文档的组件和格式，但我不太确定。

1 个答案:

答案 0 :(得分：1)

鉴于您计划使用Tesseract作为基本OCR功能，请尝试查看hORC格式化输出。这包括很多关于font-size，font-face，position等的附加信息。

您可以在此处找到hOCR的说明： https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924

如果这不成功，则取决于您想要投入Tesseract的努力程度。它的内部API（通过Tess4J以Java形式提供）确实提供了重建页面布局所需的大部分信息。