应用错误收集

时间：2011-05-04 05:54:55

标签： pdf text-extraction

我需要从这本既有文字又有图像的杂志中提取“文章”。图像内容必须单独放置，文本提取（尽可能）并单独放置。

我该怎么做呢？是否有商业服务/ api已经这样做了？程序/服务的输入只是文件。

（实际文件是普通的pdf文件，而不是一个sef文件）

答案 0 :(得分：1)

Docotic.Pdf library可以为您提取PDF文件中的图像和文字。

以下是您的任务的几个示例：

提取的图像可以保存为JPEG和TIFF。您可以从每个页面或整个文档中提取文本。你可以用它们的坐标提取文本块。

免责声明：我为图书馆的供应商Bit Miracle工作。

答案 1 :(得分：0)

试试这个：

同一组件也具有图像提取功能。

你可以尝试!!

答案 2 :(得分：0)

如果您能买得起商业选项，Amyuni PDF Creator将允许您枚举pdf文件中的所有组件（文本，图像等），您将能够将它们作为独立对象提取，并且您可以创建新的随身携带的PDF文件。

答案 3 :(得分：0)

您可以Aspose.Pdf.Kit使用extract text and images separately from a PDF file。 API非常简单。您还可以在Aspose网站上找到示例，教程和支持。

注意：我在Aspose担任开发人员传播者。