java中的文件名charset问题

时间:2010-09-30 16:32:14

标签: java encoding jboss

当文件名有重音时,由于字符集不匹配,尝试打开一个文件,指出它无法找到。 我在linux系统上使用UTF-8(/ etc / locales也设置了UTF-8)。使用-Dfile.encoding = UTF-8和环境变量JBOSS_ENCODING =“UTF-8”运行jboss

使用JSP我得到文件的名称:

String fileName = element.getChildText("FileName");
out.println("File to be opened : " + filename);

显示:

要打开的文件:aaaaaà.txt

但是,新文件(fileName)将无效。只是file.exists()是假的。

尝试:

File[] files = dir.listFiles();
for (int i=0; i<files.length; i++){
      out.println(fileName);

我得到:aaaaaÃ.txt

为什么要读取并尝试打开文件在HDD中作为ISO-8859-1的文件? 它是JBoss配置吗?一个java配置?如何强制java.io.File使用UTF-8作为文件名的字符集来读取文件?

我使用过其他工具,使用UTF-8,名称总是很好。

(注意我总是在谈论文件的名称,而不是内容,它可能是一个无效文件)

2 个答案:

答案 0 :(得分:3)

我正在努力追查问题。这是我已经拥有的:

Exists.java

import java.io.*;

public class Exists {
  public static void main(String[] args) {
    new File("aaa").exists();
    new File("aaa\u00E4").exists();
    new File("aaa\u00C3\u00A4").exists();
  }
}

还有java -version

java version "1.6.0_20"
Java(TM) SE Runtime Environment (build 1.6.0_20-b02)
Java HotSpot(TM) 64-Bit Server VM (build 16.3-b01, mixed mode)

现在到了有趣的部分:

$ strace -f -o strace.out java Exists && grep 'stat("aaa' strace.out
31942 stat("aaa", 0x41464950)           = -1 ENOENT (No such file or directory)
31942 stat("aaa\303\244", 0x41464950)   = -1 ENOENT (No such file or directory)
31942 stat("aaa\303\203\302\244", 0x41464950) = -1 ENOENT (No such file or directory)

好消息是strace在字节级工作,而不像Java那样在字符级工作。所以在这种情况下一切都很好。我将环境变量LANG设置为en_US.UTF-8,所有LC_*变量都未设置。

现在将问题追溯到最小的工作示例:

$ strace -f -o strace.out env - LC_ALL=en_US.UTF-8 /home/roland/bin/java Exists && grep 'stat("aaa' strace.out
31968 stat("aaa", 0x41a75950)           = -1 ENOENT (No such file or directory)
31968 stat("aaa\303\244", 0x41a75950)   = -1 ENOENT (No such file or directory)
31968 stat("aaa\303\203\302\244", 0x41a75950) = -1 ENOENT (No such file or directory)

这仍然有效。那么让我们尝试另一种编码:

$ strace -f -o strace.out env - LANG=en_US.ISO-8859-1 /home/roland/bin/java Exists && grep 'stat("aaa' strace.out
32070 stat("aaa", 0x407a3950)           = -1 ENOENT (No such file or directory)
32070 stat("aaa?", 0x407a3950)          = -1 ENOENT (No such file or directory)
32070 stat("aaa??", 0x407a3950)         = -1 ENOENT (No such file or directory)

所以这不起作用。一个可能的原因可能是我选择了不在locale -a打印的列表中的区域设置。但这不应该是Java将字母转换为问号的原因。

只要LANG指向不存在的语言环境,sun.jnu.encoding属性的设置就不再有任何效果了。所以我现在没有想法了。

答案 1 :(得分:1)