JAVA字符串编码转换问题

时间:2013-08-20 10:14:57

标签: java utf-8 character-encoding

我在netbeans中启动时有一段代码工作正常(此代码替换了从.odt文件中提取的content.xml文件中的一些字符串):

String cont = new String(Utils.readBinaryFile(path + "/content.xml"));
for (Patterns p : patterns) {
    cont = cont.replaceAll(p.search.replaceAll("\\{", "\\\\{"), p.replace.replaceAll("\n", "<text:line-break/>").replaceAll("\\{", "\\\\{"));
}
Utils.saveToFile(path + "/content.xml", cont.getBytes("UTF-8"), false);

/**
 * Saves the binary data to the file, if append is FALSE, the data in the file is overwritten
 * @param fileName
 * @param data
 * @param append 
 */
    public static void saveToFile(String fileName, byte[] data, boolean append) {
    try {
        try (FileOutputStream out = new FileOutputStream(fileName, append)) {
        out.write(data);
        }
    } catch (IOException iOException) {
        System.err.println(iOException.getMessage());
    }
    }

如果我在命令行中使用Windows中的代码,例如java -jar ....文件中保存的字符已经破坏了转换。 我意识到它来自于我的情况下编码CP1250的情况,当我启动我的代码作为java -jar使用CP1250。问题是如何使这工作正常?我不在命令行中使用该代码,但是从applet运行的applet和代码的行为与在CP1250中从命令行运行的行为完全相同。

我阅读了许多关于编码的文章,但似乎没有任何帮助,但是从指定编码的命令行运行:

java -Dfile.encoding=utf-8 -jar Office.jar

解决了这个问题。

意识到我之后想要将参数传递给我的applet标签:

<object classid='clsid:8AD9C840-044E-11D1-B3E9-00805F499D93' width='500' height='30'> 
    <param name='codebase_lookup' value='false'> 
    <param name='archive' value='" . ServerURL . "/applets/Office/Office.jar'> 
    <param name='code' value='OfficeApplet'> 
    <param name='java_arguments' value='-Dfile.encoding=utf-8'
    <param name='data' value='" . $dataJSON . "'> 
    <comment> 
        <embed 
            codebase_lookup='false' 
            archive='" . ServerURL . "/applets/Office/Office.jar' 
            code='OfficeApplet' 
            width='500' 
            height='30'
            java_arguments='-Dfile.encoding=utf-8'
            data='" . $dataJSON. "' 
            type='application/x-java-applet' 
        > 
            <noembed> 
              You need JRE 1.7+
            </noembed> 
          </embed> 
        </comment> 
</object>

正如您所看到的,我正在使用 java_arguments 标记,但它似乎没有帮助,或者java_arguments可能以错误的方式传递给JVM,或者参数被忽略,我不知道。有人可以帮我解决这个问题吗?我使用Windows 7 64位。 提前谢谢。

2 个答案:

答案 0 :(得分:0)

问题是Utils.readBinaryFile(path + "/content.xml")可能不使用UTF-8编码从文件中读取数据。我的猜测是你在util方法中使用默认编码,这在系统之间会发生变化。

要解决此问题,您需要在readBinaryFile()中指定文件的编码。

InputStreamReader是你的朋友。

答案 1 :(得分:0)

您写道:

String cont = new String(Utils.readBinaryFile(path + "/content.xml"));

String(byte[])构造函数使用平台默认编码将字节转换为字符,可以是任何内容。最简单的解决方法是使用允许指定编码的构造函数;例如:

String cont = new String(Utils.readBinaryFile(path + "/content.xml"), "UTF-8");