我需要从这本既有文字又有图像的杂志中提取“文章”。图像内容必须单独放置,文本提取(尽可能)并单独放置。
我该怎么做呢?是否有商业服务/ api已经这样做了?程序/服务的输入只是文件。
例如输入:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际文件是普通的pdf文件,而不是一个sef文件)
答案 0 :(得分:1)
Docotic.Pdf library可以为您提取PDF文件中的图像和文字。
以下是您的任务的几个示例:
提取的图像可以保存为JPEG和TIFF。您可以从每个页面或整个文档中提取文本。你可以用它们的坐标提取文本块。
免责声明:我为图书馆的供应商Bit Miracle工作。
答案 1 :(得分:0)
试试这个:
同一组件也具有图像提取功能。
你可以尝试!!
答案 2 :(得分:0)
如果您能买得起商业选项,Amyuni PDF Creator将允许您枚举pdf文件中的所有组件(文本,图像等),您将能够将它们作为独立对象提取,并且您可以创建新的随身携带的PDF文件。
答案 3 :(得分:0)
您可以Aspose.Pdf.Kit使用extract text and images separately from a PDF file。 API非常简单。您还可以在Aspose网站上找到示例,教程和支持。
注意:我在Aspose担任开发人员传播者。