我正在使用Java和Tomcat 8开发一个Web应用程序。该应用程序有一个页面,用于上传文件,其中的内容将显示在不同的页面中。简单明了。
但是,这些文件可能包含不常见的字符作为其文本的一部分。现在,我正在使用包含越南文本的文件。
该文件以UTF-8编码,可以在任何文本编辑器中打开。但是,我找不到任何方式上传它并保持内容的正确编码,尽管搜索了很多并尝试了很多不同的东西。
我上传文件的页面包含以下格式:
<form method="POST" action="upload" enctype="multipart/form-data" accept-charset="UTF-8" >
File: <input type="file" name="file" id="file" multiple/><br/>
Param1: <input type="text" name="param1"/> <br/>
Param2: <input type="text" name="param2"/> <br/>
<input type="submit" value="Upload" name="upload" id="upload" />
</form>
它还包含:
<%@page contentType="text/html" pageEncoding="UTF-8"%>
...
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
我的servlet看起来像这样:
protected void processRequest(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
try {
response.setContentType("text/html;charset=UTF-8");
request.setCharacterEncoding("UTF-8");
String param1 = request.getParameter("param1");
String param2 = request.getParameter("param2");
Collection<Part> parts = request.getParts();
Iterator<Part> iterator = parts.iterator();
while (iterator.hasNext()) {
Part filePart = iterator.next();
InputStream filecontent = null;
filecontent = filePart.getInputStream();
String content = convertStreamToString(filecontent, "UTF-8");
//Save the content and the parameters in the database
if (filecontent != null) {
filecontent.close();
}
}
} catch (ParseException ex) {
}
}
static String convertStreamToString(java.io.InputStream is, String encoding) {
java.util.Scanner s = new java.util.Scanner(is, encoding).useDelimiter("\\A");
return s.hasNext() ? s.next() : "";
}
尽管付出了很多努力,我仍然无法获得保留正确字符的“内容”字符串。我要么得到类似“K?n”或“KẔ的东西(这似乎是ISO-8859-1的解释),当正确的应该是“Kạn”时。
要添加问题,如果我在其他表单参数(param1或param2)中编写越南字符,这也是必要的,我只能在设置表单的accept-charset和servlet时才能正确读取它们扫描仪编码为ISO-8859-1,我绝对不明白。在这种情况下,如果我打印接收的参数,我会得到类似“K&amp;#7 8 4 1; n”(没有空格)的内容,其中包含正确字符的表示。所以似乎可以使用ISO-8859-1从表单中读取越南字符,只要表单本身使用该字符集即可。但是,它永远不会对上传文件的内容起作用。我甚至尝试用ISO-8859-1对文件进行编码,将charset用于所有内容,但它根本不起作用。
我确信这种情况并不罕见,所以我想向以前曾经去过那里的人们寻求帮助。我可能错过了什么,所以任何帮助都表示赞赏。
提前谢谢。
编辑1:虽然此问题尚未收到回复,但我会继续发布我的调查结果,以防有人感兴趣或关注它。
在尝试了许多不同的事情之后,我似乎已经缩小了问题的原因。我创建了一个类,它从磁盘中的特定文件夹中读取文件并打印其内容。代码如下:
public static void openFile() {
System.out.println(String.format("file.encoding: %s", System.getProperty("file.encoding")));
System.out.println(String.format("defaultCharset: %s", Charset.defaultCharset().name()));
File file = new File(myFilePath);
byte[] buffer = new byte[(int) file.length()];
BufferedInputStream f = null;
String content = null;
try {
f = new BufferedInputStream(new FileInputStream(file));
} catch (FileNotFoundException ex) {
}
try {
f.read(buffer);
content = new String(buffer, "UTF-8");
System.out.println("UTF-8 File: " + content);
f.close();
} catch (IOException ex) {
}
}
然后我在这个类中添加了一个main函数,使其可执行。当我独立运行它时,我得到以下输出:
file.encoding:UTF-8
defaultCharset:UTF-8
UTF-8文件:{“...Kạn...”}
但是,如果将项目作为webapp运行,就像它应该的那样,并从该类调用相同的函数,我得到:
file.encoding:Cp1252
defaultCharset:windows-1252
UTF-8文件:{“... K?n ...”}
当然,这清楚地表明webapp用于读取文件的默认编码不是UTF-8。所以我做了一些关于这个主题的研究,并找到了为Tomcat创建setenv.bat并让它执行的经典答案:
set "JAVA_OPTS=%JAVA_OPTS% -Dfile.encoding=UTF-8"
然而,结果仍然不对:
file.encoding:UTF-8
defaultCharset:UTF-8
UTF-8文件{“...Kạn......”}
我现在可以看到默认编码变为UTF-8。但是,从文件中读取的内容仍然是错误的。上面显示的内容与我在Microsoft Word中打开文件时所获得的内容相同,但选择使用ISO-Latin-1而不是UTF-8来读取它。出于某些奇怪的原因,读取文件仍然在某处使用ISO-Latin-1,尽管所有内容都指出使用UTF-8。
同样,如果有人可能对此有任何建议或指示,我们将非常感激。
答案 0 :(得分:0)
我似乎无法结束这个问题,所以让我为我找到的答案做出贡献。
问题在于调查此类问题非常棘手,因为代码中有许多点可能会更改编码(页面,表单编码,请求编码,文件读取,文件写入,控制台输出) ,数据库写作,数据库阅读......)。
就我而言,在完成我在问题中发布的所有内容之后,我失去了大量时间来尝试解决一个不再存在的问题,仅仅因为我的IDE中的控制台输出(NetBeans,for该项目)没有使用所需的字符编码。所以我在某一点做了一切正确的事情,但是当我试图打印任何东西时,我都会弄错。在我开始将日志写入文件而不是控制台,从而控制编写编码后,我开始清楚地理解这个问题。
在我的问题(编辑之前)中描述的所有内容之后,我的解决方案中缺少的是配置数据库连接的编码。令我惊讶的是,即使我的数据库和我的所有表都使用UTF-8,应用程序和MySQL之间的通信仍然是ISO-Latin。最后遗漏的是添加&#34; useUnicode = true&amp; characterEncoding = utf-8&#34;连接,就像这样:
con = DriverManager.getConnection("jdbc:mysql:///dbname?useUnicode=true&characterEncoding=utf-8", "user", "pass");
感谢这个答案,以及其他许多人:https://stackoverflow.com/a/3275661/843668