我知道已经有PDFbox
和iText
,但他们没有能力进行可视内容提取以及需要使用pdf离线工作。我想要一种在线提取文本和视觉内容的方法。不想下载pdf文件然后做东西。什么样的API或库用于Java语言?
编辑对于那些发现不清楚的人,我会解释一下:
想象一下,在使用任何HTML parser
时,您可以在线解析网页,制作DOM
或SAX
树并浏览其元素,然后根据内容提取照片和文字那些树中的节点。至少,对于照片,您可以获得相应的HTML标签和文本,同样加上您可以获得实际文本。现在,我想知道与PDF有什么相似之处吗?无需下载即可浏览文本和图像
答案 0 :(得分:0)
Gnostice PDFOne(for Java)有一个getPageElements()方法,可以解析文本和图像元素的PDF页面。 PDF中的文本不在HTML或XML文档中的DOM中。文本只显示在各种x-y坐标中,并且神奇地看起来格式正确。但是,PDFOne有一些PDF text extraction方法可以将这些文本元素重建为用户友好的句子。披露:我为制作这个图书馆的公司工作。
答案 1 :(得分:-2)
PDFImageStream可以做到这一点。有一个只有一个限制的免费版本:它只能用于单线程应用程序。