应用错误收集

如何通过在线pdf进行照片和文本提取

时间：2015-01-25 09:35:29

标签： java pdf text-extraction image-extraction

我知道已经有PDFbox和iText，但他们没有能力进行可视内容提取以及需要使用pdf离线工作。我想要一种在线提取文本和视觉内容的方法。不想下载pdf文件然后做东西。什么样的API或库用于Java语言？

编辑对于那些发现不清楚的人，我会解释一下：

想象一下，在使用任何HTML parser时，您可以在线解析网页，制作DOM或SAX树并浏览其元素，然后根据内容提取照片和文字那些树中的节点。至少，对于照片，您可以获得相应的HTML标签和文本，同样加上您可以获得实际文本。现在，我想知道与PDF有什么相似之处吗？无需下载即可浏览文本和图像

2 个答案:

答案 0 :(得分：0)

Gnostice PDFOne（for Java）有一个getPageElements()方法，可以解析文本和图像元素的PDF页面。 PDF中的文本不在HTML或XML文档中的DOM中。文本只显示在各种x-y坐标中，并且神奇地看起来格式正确。但是，PDFOne有一些PDF text extraction方法可以将这些文本元素重建为用户友好的句子。披露：我为制作这个图书馆的公司工作。

答案 1 :(得分：-2)

PDFImageStream可以做到这一点。有一个只有一个限制的免费版本：它只能用于单线程应用程序。