使用apache TIKA解析时,不显示日语字符

时间:2014-07-16 08:07:50

标签: java apache-tika

我使用以下代码从PDF中提取一些日文文本但是输出文件不包含japaneese字符,而不是有一些垃圾字符。请帮我显示确切的日文字符。

    InputStream is = null;
try {
  is = new FileInputStream("D:/jpn.pdf");
  ContentHandler contenthandler = new BodyContentHandler();
  Metadata metadata = new Metadata();
  PDFParser pdfparser = new PDFParser();
  pdfparser.parse(is, contenthandler, metadata, new ParseContext());
  System.out.println(contenthandler.toString());
}
catch (Exception e) {
  e.printStackTrace();
}

当前输出:(?\3Ï?ä=> Yc?³?; 2+?Y /èN?)#/ SM] TZ

?#U&{?6xM?1zT [Nmù6·K ??(N

0 个答案:

没有答案