寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。
它将在服务器上用于从上传的PDF文件中生成在线电子书。
需要提取以下内容:
查看Adobe PDF库(仅5000美元),BCL SDK(?),PDFLib(795欧元),QuickPDF(250美元)
现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图)。剩下的事情是:
我们在支付大量资金(并可能选择错误的解决方案时出错)或使用免费/开源解决方案之间犹豫不决。
您建议使用哪种BEST解决方案从PDF中提取几乎所有内容?
非常感谢任何评论。
答案 0 :(得分:5)
听起来好几天或几周,您可以根据需要调整开源工具。字体和所有内容都可以被提取出来,这是每个PDF阅读器必须要做的事情才能显示它们。
您应该估算程序员的成本($ / hr),然后将其乘以添加所需开源功能所需的估计时间(60-80小时?)。如果这个数字大于或接近5000美元,你可能会考虑购买商业软件。
否则,在(非常好)PDF reference的帮助下,你应该顺利去。
还有一件事,你可能会发现Poppler有所帮助。它用于渲染PDF,但这与您尝试执行的操作非常相关。
答案 1 :(得分:1)
答:字体:我不认为可以提取字体。
B:不确定多媒体
C:什么是热点?D:看看iTextSharp(开源),您可以提取更多页面信息。
答案 2 :(得分:1)
还有PDF Suite包含3个SDK,专门用于从PDF中提取内容,将PDF渲染为图像并转换为html。虽然没有字体文件提取,但它支持XML输出和文本提取,保留了原始布局。
有一个基于此引擎的"PDF Multitool"免费实用程序,因此您可以使用它来查看它对您所拥有的PDF文件的工作原理。
免责声明:我为ByteScout工作
答案 3 :(得分:0)
是的,您可以提取文本,文本样式信息,图像,链接注释,书签,甚至可以获得段落ID信息,但表格除外。 点击此链接。
http://www.pdftron.com/pdfnet/index.html
它确实很好。
答案 4 :(得分:0)
tika http://tika.apache.org/它的优点是从多种类型中提取文本。但它也可以解决你的问题。
执行: Tika的目标是尽可能地重用现有的解析器库,如PDFBox或Apache POI,因此Tika中的大多数解析器类都是这些外部库的适配器。
我认为tika可能会像你描述的那样奏效。用categeries提取东西。 (稍后会添加更多代码。)
尚未确切答案。