应用错误收集

时间：2009-11-12 11:24:24

标签： pdf text image extract

寻找从PDF文件中提取内容的解决方案（使用控制台工具或库）。

它将在服务器上用于从上传的PDF文件中生成在线电子书。

需要提取以下内容：

查看Adobe PDF库（仅5000美元），BCL SDK（？），PDFLib（795欧元），QuickPDF（250美元）

现在我们使用开源pdf2xml（提取文本，图像和链接）和GhostScript（快照和缩略图）。剩下的事情是：

我们在支付大量资金（并可能选择错误的解决方案时出错）或使用免费/开源解决方案之间犹豫不决。

您建议使用哪种BEST解决方案从PDF中提取几乎所有内容？

非常感谢任何评论。

答案 0 :(得分：5)

听起来好几天或几周，您可以根据需要调整开源工具。字体和所有内容都可以被提取出来，这是每个PDF阅读器必须要做的事情才能显示它们。

您应该估算程序员的成本（$ / hr），然后将其乘以添加所需开源功能所需的估计时间（60-80小时？）。如果这个数字大于或接近5000美元，你可能会考虑购买商业软件。

否则，在（非常好）PDF reference的帮助下，你应该顺利去。

还有一件事，你可能会发现Poppler有所帮助。它用于渲染PDF，但这与您尝试执行的操作非常相关。

答案 1 :(得分：1)

答：字体：我不认为可以提取字体。

B：不确定多媒体

C：什么是热点？

D：看看iTextSharp（开源），您可以提取更多页面信息。

答案 2 :(得分：1)

还有PDF Suite包含3个SDK，专门用于从PDF中提取内容，将PDF渲染为图像并转换为html。虽然没有字体文件提取，但它支持XML输出和文本提取，保留了原始布局。

有一个基于此引擎的"PDF Multitool"免费实用程序，因此您可以使用它来查看它对您所拥有的PDF文件的工作原理。

免责声明：我为ByteScout工作

答案 3 :(得分：0)

是的，您可以提取文本，文本样式信息，图像，链接注释，书签，甚至可以获得段落ID信息，但表格除外。点击此链接。

它确实很好。

答案 4 :(得分：0)

tika http://tika.apache.org/它的优点是从多种类型中提取文本。但它也可以解决你的问题。

执行： Tika的目标是尽可能地重用现有的解析器库，如PDFBox或Apache POI，因此Tika中的大多数解析器类都是这些外部库的适配器。

我认为tika可能会像你描述的那样奏效。用categeries提取东西。（稍后会添加更多代码。）

尚未确切答案。