如何检测pdf中的隐藏文本

时间:2012-01-24 06:38:02

标签: pdf text extraction

我们正在使用iText / PDFBox从PDF中提取文本,但PDF中不可见的其他文本也会被提取。是否有任何方法和/或工具来摆脱这些隐藏的文本?

1 个答案:

答案 0 :(得分:1)

有许多不同的方法可以添加隐藏文字,包括

  1. 隐藏在隐藏/不可见/已锁定的内容组图层
  2. OCG上的白色文字颜色
  3. 100%透明文字
  4. ???
  5. 每个PDF可能使用不同的方法,并且能够将它们分开,您可能需要知道隐藏文本的实现方式。

    iText有选项可以返回文字颜色吗?如果是,那么您可以尝试忽略白色文本对象。