我正在使用PDFBox
2.0.8进行pdf内容提取,将其转换为JSON
,然后从创建的JSON构建新文档(以清除可能的漏洞)。我已经扩展PDFTextStripper
类以获取字体信息:
PDFont font = textPosition.getFont() // it is embedded font
现在我正在尝试使用其字体将相同的提取字符写入新的pdf文档:
contentStream.setFont(font, 16);
contentStream.showText(text);
我在第二行收到java.lang.IllegalArgumentException: No glyph for U+004A in font HLOXAY+Birka-SemiBoldItalic
例外。
我想写的文字是“PDF解释”一书的第三页上的“John Whitington”。
我已经读过它是因为当前字体没有Unicode映射。但据我所知,如果所有读者都显示这个文本,应该有办法将其复制到另一个pdf。
我只想在文档之间完整复制文本和字体信息。
很抱歉,如果这里复制了任何问题,但经过几天的搜索,我仍然找不到合适的解决方案。提前感谢您的帮助。