Question

我正在尝试使用PDFBox修改PDF文档的内容。我原样使用this example，但观察到我的PDF文件的文本在字符级别（或更糟）被分割。例如，字符串EM? what it is:会被拆分为：

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

（通过在上述代码中打印cosString进行检查）。据我所知，文件中只有拉丁字符，编码也是ISO-8859-1。有什么想法吗？

此致

萨里尔

Answer 1

这很可能是PDF格式问题。这就是您的特定PDF存储文本以获得正确的字母间距或kerning的方式。这在PDF到PDF之间差别很大，具体取决于它们的创建方式。

通常，我建议简单地将所有不同的令牌合并为一个大的内容字符串。