您好我在新闻报纸上工作,我们正在寻找一种方法来提供有用的材料。我们的页面是pdf格式,因此我们需要一种从pdf导出文本和图像的方法,以便将它们添加到数据库中。 我们已经看过Iceni Technology的Adobe Acrobat新闻工作室插件,但只是想知道是否有其他人知道导出pdf数据的其他选项。感谢
答案 0 :(得分:0)
有pdftotext
(xpdf的一部分)。它将从PDF文件中提取文本(如果它作为文本存储在PDF中,而不是作为图像存储)。你可以使用它。
但是,请注意,从PDF中提取文本的任何解决方案都将受到限制,因为PDF仅用于显示。至少,你不会有文章日期,作者等元数据;此外,如果文本的一部分在图像中,您可能会丢失它。
更好的方法可能是从生成PDF的系统中提取原始数据,并以合适的格式存档。也许更多的工作,但更好的结果。
答案 1 :(得分:0)
如果您的pdf已包含文本,那么您的工作将会更加轻松:pdftotext和pdftohtml等工具将为您提供图像和文本输出(请参阅Ubuntu软件包xpdf-utils)。
另一方面,如果pdf中的文本是基于图像的,那么您将不得不查看OCR选项。幸运的是,有一些很好的开源产品。我使用ImageMagick和Tesseract的组合取得了一些成功: