Question

我有一个文件，其中包含以下字符：“Joh 1：1ஆதியிலேஆதியிலேவாரதவாரததைதைதைஇருநஇருநஇருநததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுதது”“”“”“”“”“”“。”

www.unicode.org/charts/PDF/U0B80.pdf

当我使用以下代码时：

bufferedWriter = new BufferedWriter (new OutputStreamWriter(System.out, "UTF8"));

输出是框和其他奇怪的字符：

“P = O֛;＆LT;一条Yՠ;”

有人可以帮忙吗？

这些是完整的代码：

File f=new File("E:\\bible.docx");
        Reader decoded=new InputStreamReader(new FileInputStream(f), StandardCharsets.UTF_8);
        bufferedWriter = new BufferedWriter (new OutputStreamWriter(System.out, StandardCharsets.UTF_8));
        char[] buffer = new char[1024];
        int n;
        StringBuilder build=new StringBuilder();
        while(true){
            n=decoded.read(buffer);
            if(n<0){break;}
            build.append(buffer,0,n);
            bufferedWriter.write(buffer);
        }

enter image description here

StringBuilder值显示UTF字符，但在窗口中显示时，它显示为方框..

找到问题的答案!!! 编码是正确的（即UTF-8）Java将文件读取为UTF-8，字符串字符为UTF-8，问题是在netbeans的输出面板中没有字体显示它。更改输出面板的字体（Netbeans-＆gt; tools-＆gt; options-＆gt; misc-＆gt;输出选项卡）后，我得到了预期的结果。当它在JTextArea中显示时（需要更改字体），同样适用。但我们无法更改windows'cmd提示字体。

Answer 1

因为您的输出是以UTF-8编码的，但仍然包含替换字符（U+FFFD，），我相信当您读取数据时会出现问题。

确保您知道输入流使用的编码，并根据InputStreamReader设置编码。如果那是泰米尔语，我猜它可能是UTF-8。我不知道Java是否支持TACE-16。它看起来像这样......

StringBuilder buffer = new StringBuilder();
try (InputStream encoded = ...) {
  Reader decoded = new InputStreamReader(encoded, StandardCharsets.UTF_8);
  char[] buffer = new char[1024];
  while (true) {
    int n = decoded.read(buffer);
    if (n < 0)
      break;
    buffer.append(buffer, 0, n);
  }
}
String verse = buffer.toString();

Answer 2

System.out太靠近操作系统，足够多才多艺。在您的情况下，NetBeans控制台可能正在使用操作系统编码和IDE选择字体。

首先写入文件。如果你把它做成HTML，你甚至可以双击它，并在内部指定正确的编码。请注意使用“UTF-8”，因为“UTF8”是Java特定的（“UTF-8”也可以在Java中使用）。也许使用JDesktop.getDesktop().open("... .html");。

带有JTextPane的小型JFrame也可以。

Answer 3

事实证明，泰米尔语是以16位编码的，因此只需使用UTF-16而不是UTF-8。通过这样做，我能够在Eclipse控制台中打印Tamil文本。

读取文件并写入包含UTF - 8（不同语言）字符的文件

3 个答案: