如何在java / jsp或javascript中阅读扫描的pdf文件的内容

时间:2011-01-11 07:26:05

标签: java javascript pdf ocr

如何在java / jsp或javascript中阅读扫描的pdf文件的内容,您能告诉我们如何通过开发代码来实现这一目标吗?

预先感谢您的回复

4 个答案:

答案 0 :(得分:2)

您可以使用GhostScript将扫描的PDF转换为图像,然后将其提供给OCR引擎,例如Tesseract。请查看VietOCR以获取示例实现。

答案 1 :(得分:0)

谷歌与OCR相关的任何事情, 最好的选择是使用现有的库,如http://asprise.com/product/ocr/index.php?lang=java

答案 2 :(得分:0)

你想要做的(我认为)是使用OCR从扫描仪生成的图像PDF中提取文本。 Java可能是最好的。执行此操作有多种选择,具体取决于您是否准备为软件付费以执行此操作。 Google for Java(或Javascript),PDF和OCR。

IMO,这项任务不应该在JSP中完成。 JSP最适合渲染结果......而不是首先生成它们。

答案 3 :(得分:0)

实际上,我目前正在研究同一个项目,我是按照以下步骤进行的,效果很好。

  1. 用户将扫描的pdf上传到PDFUploader servlet,将服务器端文件名返回给前端,表示上传成功。
  2. 前端使用此文件名和默认页面0要求PDFReader servlet检索pdf文件的第一页并显示在前端,您可以将此pdf转换为图像以使用iframe来嵌入pdf阅读器。
  3. 前端使用此文件名和默认页面0来要求OCRServlet执行OCR。我在Apache http服务器中使用WeOCR和tesseract作为我的OCR引擎。我已经修改了WeOCR服务器中submit.cgi的某些部分,因为我知道WeOCR服务器将接收哪种类型的格式。我将扫描的pdf转换为图像(我使用的是pdfbox)时仍然存在一些问题