Java for Web - 编码错误的Multipart / form-data文件

时间:2016-08-01 03:38:54

标签: java tomcat utf-8 character-encoding multipartform-data

我正在使用Java和Tomcat 8开发一个Web应用程序。该应用程序有一个页面,用于上传文件,其中的内容将显示在不同的页面中。简单明了。

但是,这些文件可能包含不常见的字符作为其文本的一部分。现在,我正在使用包含越南文本的文件。

该文件以UTF-8编码,可以在任何文本编辑器中打开。但是,我找不到任何方式上传它并保持内容的正确编码,尽管搜索了很多并尝试了很多不同的东西。

我上传文件的页面包含以下格式:

<form method="POST" action="upload" enctype="multipart/form-data" accept-charset="UTF-8" >
                                File: <input type="file" name="file" id="file"  multiple/><br/>
                                Param1: <input type="text" name="param1"/> <br/>
                                Param2: <input type="text" name="param2"/> <br/>
                                <input type="submit" value="Upload" name="upload" id="upload" />
                            </form>

它还包含:

<%@page contentType="text/html" pageEncoding="UTF-8"%>
...
<meta http-equiv="content-type" content="text/html; charset=UTF-8">

我的servlet看起来像这样:

protected void processRequest(HttpServletRequest request, HttpServletResponse response)
            throws ServletException, IOException {
        try {
            response.setContentType("text/html;charset=UTF-8");
            request.setCharacterEncoding("UTF-8");

            String param1 = request.getParameter("param1");

            String param2 = request.getParameter("param2");

            Collection<Part> parts = request.getParts();

            Iterator<Part> iterator = parts.iterator();
            while (iterator.hasNext()) {
                Part filePart = iterator.next();
                InputStream filecontent = null;

                filecontent = filePart.getInputStream();

                String content = convertStreamToString(filecontent, "UTF-8");

                //Save the content and the parameters in the database

                if (filecontent != null) {
                    filecontent.close();
                }
            }

        } catch (ParseException ex) {
        } 
    }

static String convertStreamToString(java.io.InputStream is, String encoding) {
        java.util.Scanner s = new java.util.Scanner(is, encoding).useDelimiter("\\A");
        return s.hasNext() ? s.next() : "";
    }

尽管付出了很多努力,我仍然无法获得保留正确字符的“内容”字符串。我要么得到类似“K?n”或“KẔ的东西(这似乎是ISO-8859-1的解释),当正确的应该是“Kạn”时。

要添加问题,如果我在其他表单参数(param1或param2)中编写越南字符,这也是必要的,我只能在设置表单的accept-charset和servlet时才能正确读取它们扫描仪编码为ISO-8859-1,我绝对不明白。在这种情况下,如果我打印接收的参数,我会得到类似“K&amp;#7 8 4 1; n”(没有空格)的内容,其中包含正确字符的表示。所以似乎可以使用ISO-8859-1从表单中读取越南字符,只要表单本身使用该字符集即可。但是,它永远不会对上传文件的内容起作用。我甚至尝试用ISO-8859-1对文件进行编码,将charset用于所有内容,但它根本不起作用。

我确信这种情况并不罕见,所以我想向以前曾经去过那里的人们寻求帮助。我可能错过了什么,所以任何帮助都表示赞赏。

提前谢谢。

编辑1:虽然此问题尚未收到回复,但我会继续发布我的调查结果,以防有人感兴趣或关注它。

在尝试了许多不同的事情之后,我似乎已经缩小了问题的原因。我创建了一个类,它从磁盘中的特定文件夹中读取文件并打印其内容。代码如下:

public static void openFile() {
    System.out.println(String.format("file.encoding: %s", System.getProperty("file.encoding")));
    System.out.println(String.format("defaultCharset: %s", Charset.defaultCharset().name()));

    File file = new File(myFilePath);
    byte[] buffer = new byte[(int) file.length()];
    BufferedInputStream f = null;
    String content = null;
    try {
        f = new BufferedInputStream(new FileInputStream(file));
    } catch (FileNotFoundException ex) {
    }

    try {
        f.read(buffer);
        content = new String(buffer, "UTF-8");
        System.out.println("UTF-8 File: " + content);
        f.close();
    } catch (IOException ex) {
    }
}

然后我在这个类中添加了一个main函数,使其可执行。当我独立运行它时,我得到以下输出:

  

file.encoding:UTF-8
  defaultCharset:UTF-8
  UTF-8文件:{“...Kạn...”}

但是,如果将项目作为webapp运行,就像它应该的那样,并从该类调用相同的函数,我得到:

  

file.encoding:Cp1252
  defaultCharset:windows-1252
  UTF-8文件:{“... K?n ...”}

当然,这清楚地表明webapp用于读取文件的默认编码不是UTF-8。所以我做了一些关于这个主题的研究,并找到了为Tomcat创建setenv.bat并让它执行的经典答案:

set "JAVA_OPTS=%JAVA_OPTS% -Dfile.encoding=UTF-8"

然而,结果仍然不对:

  

file.encoding:UTF-8
  defaultCharset:UTF-8
  UTF-8文件{“...Kạn......”}

我现在可以看到默认编码变为UTF-8。但是,从文件中读取的内容仍然是错误的。上面显示的内容与我在Microsoft Word中打开文件时所获得的内容相同,但选择使用ISO-Latin-1而不是UTF-8来读取它。出于某些奇怪的原因,读取文件仍然在某处使用ISO-Latin-1,尽管所有内容都指出使用UTF-8。

同样,如果有人可能对此有任何建议或指示,我们将非常感激。

1 个答案:

答案 0 :(得分:0)

我似乎无法结束这个问题,所以让我为我找到的答案做出贡献。

问题在于调查此类问题非常棘手,因为代码中有许多点可能会更改编码(页面,表单编码,请求编码,文件读取,文件写入,控制台输出) ,数据库写作,数据库阅读......)。

就我而言,在完成我在问题中发布的所有内容之后,我失去了大量时间来尝试解决一个不再存在的问题,仅仅因为我的IDE中的控制台输出(NetBeans,for该项目)没有使用所需的字符编码。所以我在某一点做了一切正确的事情,但是当我试图打印任何东西时,我都会弄错。在我开始将日志写入文件而不是控制台,从而控制编写编码后,我开始清楚地理解这个问题。

在我的问题(编辑之前)中描述的所有内容之后,我的解决方案中缺少的是配置数据库连接的编码。令我惊讶的是,即使我的数据库和我的所有表都使用UTF-8,应用程序和MySQL之间的通信仍然是ISO-Latin。最后遗漏的是添加&#34; useUnicode = true&amp; characterEncoding = utf-8&#34;连接,就像这样:

con = DriverManager.getConnection("jdbc:mysql:///dbname?useUnicode=true&characterEncoding=utf-8", "user", "pass");

感谢这个答案,以及其他许多人:https://stackoverflow.com/a/3275661/843668