我需要从pdf文档中提取文本,而我正在使用iTextSharp库来执行此操作。问题是图像上有文字,而不是图像的一部分。我一直在寻找一种方法来获取图像的坐标,因为图像上的注释包含在文本提取中:
提取结果:
有些文字...... 文本 文本 更多文字..
但是,图像中的文本无关紧要,需要忽略才能输出:
有些文字...... 更多文字......
另一个问题是有多个页面存在这个问题,图像都是不同的大小,但是,所有文本总是在图像范围内,这就是为什么如果我有办法确定高度和x,y坐标相对于页面的图像我可以提取必要的数据。
目前,我需要获取文本,但我还需要在以后提取图像。