Question

您好我在新闻报纸上工作，我们正在寻找一种方法来提供有用的材料。我们的页面是pdf格式，因此我们需要一种从pdf导出文本和图像的方法，以便将它们添加到数据库中。我们已经看过Iceni Technology的Adobe Acrobat新闻工作室插件，但只是想知道是否有其他人知道导出pdf数据的其他选项。感谢

Answer 1

有pdftotext（xpdf的一部分）。它将从PDF文件中提取文本（如果它作为文本存储在PDF中，而不是作为图像存储）。你可以使用它。

但是，请注意，从PDF中提取文本的任何解决方案都将受到限制，因为PDF仅用于显示。至少，你不会有文章日期，作者等元数据;此外，如果文本的一部分在图像中，您可能会丢失它。

更好的方法可能是从生成PDF的系统中提取原始数据，并以合适的格式存档。也许更多的工作，但更好的结果。

Answer 2

如果您的pdf已包含文本，那么您的工作将会更加轻松：pdftotext和pdftohtml等工具将为您提供图像和文本输出（请参阅Ubuntu软件包xpdf-utils）。

另一方面，如果pdf中的文本是基于图像的，那么您将不得不查看OCR选项。幸运的是，有一些很好的开源产品。我使用ImageMagick和Tesseract的组合取得了一些成功：

首先，使用ImageMagick将PDF转换为TIFF（Tesseract不会是OCR PDF）
使用Tesseract OCR TIFF（您也可以尝试gocr，也可以在Ubuntu repos中使用）

关键是确保TIFF足够高的质量。这些ImageMagick设置对我很有用：

convert -depth 8 -density 500 -colorspace GRAY -resize 1600 input.pdf output.tif

如果您还需要从pdf中提取元数据（标题，位置，主题，作者等），那么pdftk是一个有用的工具。

从pdfs导出数据的最佳方法

2 个答案: