使用ExtractText命令行工具时为空间提取错误的字符

时间:2017-09-02 01:44:13

标签: java pdf pdfbox

用于提取文件的命令是java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf。输出相同的是。

This%is%one%
This%is%two%
This%is%three%
This%is%four%

使用PDFDebugger检查pdf。我看到了陷入困境的“%”

的以下条目
Code Glyph Name Unicode Character Glyph
37   1          %                 None

如果有unicodes但字形不存在,请问如何在这种情况下正确提取文本?我期待以下输出,因为“%”字符永远不会在pdf中呈现。

This is one
This is two
This is three
This is four

输入pdf文件为here

1 个答案:

答案 0 :(得分:1)

显然有时在某​​些pdf中Unicode映射可能是错误的,在这种情况下,需要删除Unicode映射并重新尝试提取。这个问题清楚地指出了映射错误的地方。 %->None(Unicode->字形) https://stackoverflow.com/a/45922162/6935152