从pdfs导出数据的最佳方法

时间:2010-03-08 15:41:24

标签: database pdf export

您好我在新闻报纸上工作,我们正在寻找一种方法来提供有用的材料。我们的页面是pdf格式,因此我们需要一种从pdf导出文本和图像的方法,以便将它们添加到数据库中。 我们已经看过Iceni Technology的Adobe Acrobat新闻工作室插件,但只是想知道是否有其他人知道导出pdf数据的其他选项。感谢

2 个答案:

答案 0 :(得分:0)

pdftotextxpdf的一部分)。它将从PDF文件中提取文本(如果它作为文本存储在PDF中,而不是作为图像存储)。你可以使用它。

但是,请注意,从PDF中提取文本的任何解决方案都将受到限制,因为PDF仅用于显示。至少,你不会有文章日期,作者等元数据;此外,如果文本的一部分在图像中,您可能会丢失它。

更好的方法可能是从生成PDF的系统中提取原始数据,并以合适的格式存档。也许更多的工作,但更好的结果。

答案 1 :(得分:0)

如果您的pdf已包含文本,那么您的工作将会更加轻松:pdftotext和pdftohtml等工具将为您提供图像和文本输出(请参阅Ubuntu软件包xpdf-utils)。

另一方面,如果pdf中的文本是基于图像的,那么您将不得不查看OCR选项。幸运的是,有一些很好的开源产品。我使用ImageMagickTesseract的组合取得了一些成功:

  1. 首先,使用ImageMagick将PDF转换为TIFF(Tesseract不会是OCR PDF)
  2. 使用Tesseract OCR TIFF(您也可以尝试gocr,也可以在Ubuntu repos中使用)
  3. 关键是确保TIFF足够高的质量。这些ImageMagick设置对我很有用:

    convert -depth 8 -density 500 -colorspace GRAY -resize 1600 input.pdf output.tif
    

    如果您还需要从pdf中提取元数据(标题,位置,主题,作者等),那么pdftk是一个有用的工具。