应用错误收集

使用.net提取Pdf元素

时间：2016-03-24 21:59:55

标签： .net pdf acrobat object-model pdf-parsing

寻找一个免费/付费的.net库来提取给定Acrobat（.pdf）文档的text / graphic / image元素，最好是作为对象模型，这样我们就可以将它翻译成另一种可以理解的专有格式WYSIWYG编辑。

如果不可能进行直接翻译，我们希望看到可以采取哪些方法来分别抓取文本元素，形状/图形，图像。目标格式要求使用页面上的x，y位置明确定位元素，并且PDF提取库必须告诉我页面中已解析元素的坐标。

我们非常感谢任何建议。

1 个答案:

答案 0 :(得分：1)

您可以使用Docotic.Pdf library执行此任务。

图书馆可以extract text并提供有关每个单词甚至角色坐标的信息。在提供有关图像位置，大小和变换的信息时，它可以extract images from PDF documents。

免责声明：我为图书馆的供应商工作。