使用.net提取Pdf元素

时间:2016-03-24 21:59:55

标签: .net pdf acrobat object-model pdf-parsing

寻找一个免费/付费的.net库来提取给定Acrobat(.pdf)文档的text / graphic / image元素,最好是作为对象模型,这样我们就可以将它翻译成另一种可以理解的专有格式WYSIWYG编辑。

如果不可能进行直接翻译,我们希望看到可以采取哪些方法来分别抓取文本元素,形状/图形,图像。目标格式要求使用页面上的x,y位置明确定位元素,并且PDF提取库必须告诉我页面中已解析元素的坐标。

我们非常感谢任何建议。

1 个答案:

答案 0 :(得分:1)

您可以使用Docotic.Pdf library执行此任务。

图书馆可以extract text并提供有关每个单词甚至角色坐标的信息。在提供有关图像位置,大小和变换的信息时,它可以extract images from PDF documents

免责声明:我为图书馆的供应商工作。