分析pdf文件的格式并提取文本和图像

时间:2011-05-04 05:54:55

标签: pdf text-extraction

我需要从这本既有文字又有图像的杂志中提取“文章”。图像内容必须单独放置,文本提取(尽可能)并单独放置。

我该怎么做呢?是否有商业服务/ api已经这样做了?程序/服务的输入只是文件。

例如输入:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际文件是普通的pdf文件,而不是一个sef文件)

4 个答案:

答案 0 :(得分:1)

Docotic.Pdf library可以为您提取PDF文件中的图像和文字。

以下是您的任务的几个示例:

提取的图像可以保存为JPEG和TIFF。您可以从每个页面或整个文档中提取文本。你可以用它们的坐标提取文本块。

免责声明:我为图书馆的供应商Bit Miracle工作。

答案 1 :(得分:0)

答案 2 :(得分:0)

如果您能买得起商业选项,Amyuni PDF Creator将允许您枚举pdf文件中的所有组件(文本,图像等),您将能够将它们作为独立对象提取,并且您可以创建新的随身携带的PDF文件。

答案 3 :(得分:0)

您可以Aspose.Pdf.Kit使用extract text and images separately from a PDF file。 API非常简单。您还可以在Aspose网站上找到示例,教程和支持。

注意:我在Aspose担任开发人员传播者。