应用错误收集

我使用以下代码从PDF中提取一些日文文本但是输出文件不包含japaneese字符，而不是有一些垃圾字符。请帮我显示确切的日文字符。

    InputStream is = null;
try {
  is = new FileInputStream("D:/jpn.pdf");
  ContentHandler contenthandler = new BodyContentHandler();
  Metadata metadata = new Metadata();
  PDFParser pdfparser = new PDFParser();
  pdfparser.parse(is, contenthandler, metadata, new ParseContext());
  System.out.println(contenthandler.toString());
}
catch (Exception e) {
  e.printStackTrace();
}

当前输出：（？\3Ï？ä=＆gt; Yc？³?; 2+？Y /èN？）＃/ SM] TZ

？＃U＆{？6xM？1zT [Nmù6·K ??（N

使用apache TIKA解析时，不显示日语字符

0 个答案: