如何通过在线pdf进行照片和文本提取

时间:2015-01-25 09:35:29

标签: java pdf text-extraction image-extraction

我知道已经有PDFboxiText,但他们没有能力进行可视内容提取以及需要使用pdf离线工作。我想要一种在线提取文本和视觉内容的方法。不想下载pdf文件然后做东西。什么样的API或库用于Java语言?

编辑对于那些发现不清楚的人,我会解释一下:

想象一下,在使用任何HTML parser时,您可以在线解析网页,制作DOMSAX树并浏览其元素,然后根据内容提取照片和文字那些树中的节点。至少,对于照片,您可以获得相应的HTML标签和文本,同样加上您可以获得实际文本。现在,我想知道与PDF有什么相似之处吗?无需下载即可浏览文本和图像

2 个答案:

答案 0 :(得分:0)

Gnostice PDFOne(for Java)有一个getPageElements()方法,可以解析文本和图像元素的PDF页面。 PDF中的文本不在HTML或XML文档中的DOM中。文本只显示在各种x-y坐标中,并且神奇地看起来格式正确。但是,PDFOne有一些PDF text extraction方法可以将这些文本元素重建为用户友好的句子。披露:我为制作这个图书馆的公司工作。

答案 1 :(得分:-2)

PDFImageStream可以做到这一点。有一个只有一个限制的免费版本:它只能用于单线程应用程序。