PDFBox提取的文本不包含国际(非英语)字符

时间:2012-07-15 23:08:07

标签: java internationalization pdfbox

我正在使用Apache PDFBox从多个PDF文件中提取文本。这些文件是波兰语,包含波兰语字符。不幸的是,当我打印提取的文本时,我会继续? (问号)而不是那些字符。

1 个答案:

答案 0 :(得分:1)

假设您提取的文本存储在String中,我假设您当前正在使用它来打印 -

System.out.println(s);

我建议您使用此代码段正确打印出光泽字符 -

java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8");
p.println(s);

这应该有用吗?不会出现在印刷文本中。