iOS - 区分背景文本(水印)和PDF格式的真实文本

时间:2015-06-19 11:50:46

标签: ios pdf cgpdfscanner

我的背景有pdf水印。当开始扫描突出显示任何带有水印或背景注释的单词时,首先会在触摸区域中找到它。

我使用CGPDFScanner扫描文本。

我的问题是如何检测扫描的文本是背景文本还是PDF格式的真实文本?如何区分标准文本和注释文本?

感谢。

1 个答案:

答案 0 :(得分:3)

一般来说,你没有机会可靠地区分"背景"和"真实"文本。文本以某种顺序绘制在页面的某个位置,前景,背景,普通文本......是人类感知的问题,可能根本不会反映在PDF内容流的结构中。

你可以尝试一些有根据的猜测,例如:假设"真实"文字是强烈的颜色,而背景文字是浅色,或"真实"文本以水平线排列,而背景文本通常更倾斜,等等。但这毕竟是猜测,没有什么可以依赖的。

另一方面,如果标记的PDF可能有机会,水印可能会被标记为工件数据。

PS 我刚刚看到你再次分享了你的文件。如果您的文档中我提到的启发式方法可行,则背景文本是灰色的并且对角线打印。

因此,在扫描时,您必须跟踪填充颜色和/或转换矩阵。一旦扫描仪找到文本,您就会根据当前颜色和/或矩阵值知道它是背景还是前景。

请注意,所有文件并不容易。