我有阿拉伯语的PDF文件,当我使用PDFBox提取文本时,文本字体为Type3,有些字符为空,字体等于null?我想知道这是什么问题?
码
protected void processTextPosition(TextPosition text) {
String character=text.getCharacter(); // is empty
String font=text.getFont().getBaseFont(); // equal null
}
使用iText生成 流: ( dJ� v{d W�cG�)Tj
我说的是这些问号,为什么我会以这种格式获得字符?
这些问号在我的信息流中出现为“SOH-STX-ETX-EOT”,而不是一个字符。 PDF中的字符显示为'd'和'J'!
答案 0 :(得分:2)