我有一个文件,其中包含以下字符:“Joh 1:1ஆதியிலேஆதியிலேவாரதவாரததைதைதைஇருநஇருநஇருநததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுதது”“”“”“”“”“”“。”
www.unicode.org/charts/PDF/U0B80.pdf
当我使用以下代码时:
bufferedWriter = new BufferedWriter (new OutputStreamWriter(System.out, "UTF8"));
输出是框和其他奇怪的字符:
“P = O֛;<一条Yՠ;”
有人可以帮忙吗?
这些是完整的代码:
File f=new File("E:\\bible.docx");
Reader decoded=new InputStreamReader(new FileInputStream(f), StandardCharsets.UTF_8);
bufferedWriter = new BufferedWriter (new OutputStreamWriter(System.out, StandardCharsets.UTF_8));
char[] buffer = new char[1024];
int n;
StringBuilder build=new StringBuilder();
while(true){
n=decoded.read(buffer);
if(n<0){break;}
build.append(buffer,0,n);
bufferedWriter.write(buffer);
}
StringBuilder值显示UTF字符,但在窗口中显示时,它显示为方框..
找到问题的答案!!! 编码是正确的(即UTF-8)Java将文件读取为UTF-8,字符串字符为UTF-8,问题是在netbeans的输出面板中没有字体显示它。更改输出面板的字体(Netbeans-&gt; tools-&gt; options-&gt; misc-&gt;输出选项卡)后,我得到了预期的结果。当它在JTextArea中显示时(需要更改字体),同样适用。但我们无法更改windows'cmd提示字体。
答案 0 :(得分:5)
因为您的输出是以UTF-8编码的,但仍然包含替换字符(U+FFFD
, ),我相信当您读取数据时会出现问题。
确保您知道输入流使用的编码,并根据InputStreamReader
设置编码。如果那是泰米尔语,我猜它可能是UTF-8。我不知道Java是否支持TACE-16。它看起来像这样......
StringBuilder buffer = new StringBuilder();
try (InputStream encoded = ...) {
Reader decoded = new InputStreamReader(encoded, StandardCharsets.UTF_8);
char[] buffer = new char[1024];
while (true) {
int n = decoded.read(buffer);
if (n < 0)
break;
buffer.append(buffer, 0, n);
}
}
String verse = buffer.toString();
答案 1 :(得分:1)
System.out
太靠近操作系统,足够多才多艺。在您的情况下,NetBeans控制台可能正在使用操作系统编码和IDE选择字体。
首先写入文件。如果你把它做成HTML,你甚至可以双击它,并在内部指定正确的编码。请注意使用“UTF-8”,因为“UTF8”是Java特定的(“UTF-8”也可以在Java中使用)。也许使用JDesktop.getDesktop().open("... .html");
。
带有JTextPane的小型JFrame也可以。
答案 2 :(得分:0)
事实证明,泰米尔语是以16位编码的,因此只需使用UTF-16而不是UTF-8。通过这样做,我能够在Eclipse控制台中打印Tamil文本。