如何使用java和PDFBox从PDF获取字符的Unicode

时间:2012-09-25 06:10:28

标签: java pdf unicode pdfbox

我使用Apache PDFBox和Java来解析PDF并从中获取所有信息。提取文本仅适用于英语。对于其他语言,我只获得一些特殊字符。例如,提取阿拉伯字符Ô将给出字符串:“?on printing。当我将计算机的”区域和语言“从英语更改为阿拉伯语时工作正常。所以我认为提取字符的Unicode将解决这个问题问题。请帮我从PDF中获取字符的Unicode或建议我解决这个问题的一些解决方案。

2 个答案:

答案 0 :(得分:2)

试试changing the Java system locale。从Java程序中,这应该等同于更改操作系统设置。

答案 1 :(得分:0)