检测是否使用OCR从扫描的文档创建PDF [pdfbox]

时间:2014-06-12 12:22:02

标签: java pdf ocr pdfbox

我想知道是否使用OCR从扫描的文档创建了PDF。

为了使扫描文档中的文本可选,我猜相同的文字是用透明色,特殊字体写的......

我正在使用pdfbox,我查看了字体,颜色和许多其他属性,但我没有找到任何特别的内容。

2 个答案:

答案 0 :(得分:2)

在我的情况下,文字渲染模式设置为"既不填充也不划线文字"。

pdfbox代码:

getGraphicsState().getTextState().getRenderingMode() == PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT

答案 1 :(得分:0)

在大多数情况下,原始图像仍然存在,并且OCRd文本在下面是不可见的。

因此,一种可能性是找出是否有一张图片覆盖了所有带有文字的区域。

另一种可能性是查看字体并根据它们做出一些明智的决定