从PDF中提取所有内容

时间:2009-11-12 11:24:24

标签: pdf text image extract

寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上用于从上传的PDF文件中生成在线电子书。

需要提取以下内容:

  1. 包含字体和样式的文字;
  2. 图像;
  3. 音频和视频;
  4. 链接和热点。
  5. 页面快照和缩略图;
  6. 一般PDF信息,例如书籍布局,页数等。
  7. 查看Adobe PDF库(仅5000美元),BCL SDK(?),PDFLib(795欧元),QuickPDF(250美元)

    现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图)。剩下的事情是:

    1. 字体;
    2. 多媒体;
    3. 热点;
    4. 页面信息。
    5. 我们在支付大量资金(并可能选择错误的解决方案时出错)或使用免费/开源解决方案之间犹豫不决。

      您建议使用哪种BEST解决方案从PDF中提取几乎所有内容?

      非常感谢任何评论。

5 个答案:

答案 0 :(得分:5)

听起来好几天或几周,您可以根据需要调整开源工具。字体和所有内容都可以被提取出来,这是每个PDF阅读器必须要做的事情才能显示它们。

您应该估算程序员的成本($ / hr),然后将其乘以添加所需开源功能所需的估计时间(60-80小时?)。如果这个数字大于或接近5000美元,你可能会考虑购买商业软件。

否则,在(非常好)PDF reference的帮助下,你应该顺利去。

还有一件事,你可能会发现Poppler有所帮助。它用于渲染PDF,但这与您尝试执行的操作非常相关。

答案 1 :(得分:1)

答:字体:我不认为可以提取字体。

B:不确定多媒体

C:什么是热点?

D:看看iTextSharp(开源),您可以提取更多页面信息。

答案 2 :(得分:1)

还有PDF Suite包含3个SDK,专门用于从PDF中提取内容,将PDF渲染为图像并转换为html。虽然没有字体文件提取,但它支持XML输出和文本提取,保留了原始布局。

有一个基于此引擎的"PDF Multitool"免费实用程序,因此您可以使用它来查看它对您所拥有的PDF文件的工作原理。

免责声明:我为ByteScout工作

答案 3 :(得分:0)

是的,您可以提取文本,文本样式信息,图像,链接注释,书签,甚至可以获得段落ID信息,但表格除外。 点击此链接。

http://www.pdftron.com/pdfnet/index.html

它确实很好。

答案 4 :(得分:0)

tika http://tika.apache.org/它的优点是从多种类型中提取文本。但它也可以解决你的问题。

执行: Tika的目标是尽可能地重用现有的解析器库,如PDFBox或Apache POI,因此Tika中的大多数解析器类都是这些外部库的适配器。

我认为tika可能会像你描述的那样奏效。用categeries提取东西。 (稍后会添加更多代码。)


尚未确切答案。