我使用以下代码从PDF中提取一些日文文本但是输出文件不包含japaneese字符,而不是有一些垃圾字符。请帮我显示确切的日文字符。
InputStream is = null;
try {
is = new FileInputStream("D:/jpn.pdf");
ContentHandler contenthandler = new BodyContentHandler();
Metadata metadata = new Metadata();
PDFParser pdfparser = new PDFParser();
pdfparser.parse(is, contenthandler, metadata, new ParseContext());
System.out.println(contenthandler.toString());
}
catch (Exception e) {
e.printStackTrace();
}
当前输出:(?\3Ï?ä=> Yc?³?; 2+?Y /èN?)#/ SM] TZ
?#U&{?6xM?1zT [Nmù6·K ??(N