标签: pdf text extraction
我们正在使用iText / PDFBox从PDF中提取文本,但PDF中不可见的其他文本也会被提取。是否有任何方法和/或工具来摆脱这些隐藏的文本?
答案 0 :(得分:1)
有许多不同的方法可以添加隐藏文字,包括
每个PDF可能使用不同的方法,并且能够将它们分开,您可能需要知道隐藏文本的实现方式。
iText有选项可以返回文字颜色吗?如果是,那么您可以尝试忽略白色文本对象。