从PDF中提取文本并获取嵌入图像的坐标

时间:2016-11-20 13:50:50

标签: c# image pdf itext

我需要从pdf文档中提取文本,而我正在使用iTextSharp库来执行此操作。问题是图像上有文字,而不是图像的一部分。我一直在寻找一种方法来获取图像的坐标,因为图像上的注释包含在文本提取中:

e.g。 enter image description here

提取结果:

有些文字...... 文本 文本 更多文字..

但是,图像中的文本无关紧要,需要忽略才能输出:

有些文字...... 更多文字......

另一个问题是有多个页面存在这个问题,图像都是不同的大小,但是,所有文本总是在图像范围内,这就是为什么如果我有办法确定高度和x,y坐标相对于页面的图像我可以提取必要的数据。

目前,我需要获取文本,但我还需要在以后提取图像。

0 个答案:

没有答案