在PDF文档之间复制格式化文本,为字体清空unicode映射

时间:2018-02-09 17:27:38

标签: java pdf fonts pdfbox text-extraction

我正在使用PDFBox 2.0.8进行pdf内容提取,将其转换为JSON,然后从创建的JSON构建新文档(以清除可能的漏洞)。我已经扩展PDFTextStripper类以获取字体信息:

PDFont font = textPosition.getFont() // it is embedded font

现在我正在尝试使用其字体将相同的提取字符写入新的pdf文档:

contentStream.setFont(font, 16);

contentStream.showText(text);

我在第二行收到java.lang.IllegalArgumentException: No glyph for U+004A in font HLOXAY+Birka-SemiBoldItalic例外。

我想写的文字是“PDF解释”一书的第三页上的“John Whitington”。

我已经读过它是因为当前字体没有Unicode映射。但据我所知,如果所有读者都显示这个文本,应该有办法将其复制到另一个pdf。

我只想在文档之间完整复制文本和字体信息。

很抱歉,如果这里复制了任何问题,但经过几天的搜索,我仍然找不到合适的解决方案。提前感谢您的帮助。

0 个答案:

没有答案