应用错误收集

时间：2011-01-11 07:26:05

标签： java javascript pdf ocr

如何在java / jsp或javascript中阅读扫描的pdf文件的内容，您能告诉我们如何通过开发代码来实现这一目标吗？

预先感谢您的回复

答案 0 :(得分：2)

您可以使用GhostScript将扫描的PDF转换为图像，然后将其提供给OCR引擎，例如Tesseract。请查看VietOCR以获取示例实现。

答案 1 :(得分：0)

谷歌与OCR相关的任何事情，最好的选择是使用现有的库，如http://asprise.com/product/ocr/index.php?lang=java

答案 2 :(得分：0)

你想要做的（我认为）是使用OCR从扫描仪生成的图像PDF中提取文本。 Java可能是最好的。执行此操作有多种选择，具体取决于您是否准备为软件付费以执行此操作。 Google for Java（或Javascript），PDF和OCR。

IMO，这项任务不应该在JSP中完成。 JSP最适合渲染结果......而不是首先生成它们。

答案 3 :(得分：0)

实际上，我目前正在研究同一个项目，我是按照以下步骤进行的，效果很好。

用户将扫描的pdf上传到PDFUploader servlet，将服务器端文件名返回给前端，表示上传成功。
前端使用此文件名和默认页面0要求PDFReader servlet检索pdf文件的第一页并显示在前端，您可以将此pdf转换为图像以使用iframe来嵌入pdf阅读器。
前端使用此文件名和默认页面0来要求OCRServlet执行OCR。我在Apache http服务器中使用WeOCR和tesseract作为我的OCR引擎。我已经修改了WeOCR服务器中submit.cgi的某些部分，因为我知道WeOCR服务器将接收哪种类型的格式。我将扫描的pdf转换为图像（我使用的是pdfbox）时仍然存在一些问题