我正在阅读用俄语编写的PDF,并使用PDFBox将其解析为csv,但是csv文件包含问号而不是俄语文本。
我尝试在输入流“ Windows-1252”新的InputStreamReader(fr, "Windows-1252");
中设置文本编码,但同时也设置了System.setProperty("console.encoding", "UTF-8");
,但注释仍然有效。
byte[] text = tc.getText().getBytes(StandardCharsets.UTF_8);
String encodedString = new String(text, StandardCharsets.UTF_8);
System.out.println("result=" + encodedString );
我在控制台中收到的结果是PDF包含“Полноенаименование”之类的文本 result = ???????????? ?????????? result = ??????????? ??????????