从pdf读取俄语文本并写入excel文件

时间:2019-07-12 13:33:37

标签: java character-encoding pdfbox

我正在阅读用俄语编写的PDF,并使用PDFBox将其解析为csv,但是csv文件包含问号而不是俄语文本。

我尝试在输入流“ Windows-1252”新的InputStreamReader(fr, "Windows-1252");中设置文本编码,但同时也设置了System.setProperty("console.encoding", "UTF-8");,但注释仍然有效。

    byte[] text = tc.getText().getBytes(StandardCharsets.UTF_8);
    String encodedString = new String(text, StandardCharsets.UTF_8);
    System.out.println("result=" + encodedString );

我在控制台中收到的结果是PDF包含“Полноенаименование”之类的文本 result = ???????????? ?????????? result = ??????????? ??????????

0 个答案:

没有答案