我得到了需要阅读和解析的html文件,这个文件可以是简单的英语,japenese,或者是该语言所需的相关字符编码的任何语言。使用任何这些编码的文件在Japenese中时会出现问题
我尝试用FileReader读取文件,但生成的文件都是垃圾字符。我也尝试使用FileInputStream,只需硬编码japenese编码来检查日文文件是否正确读取但结果不符合预期。
FileInputStream fis = new FileInputStream(htmlFile);
InputStreamReader isr = new InputStreamReader(fis, " ISO-2022-JP");
我对字符编码和国际化没有太多经验,有关如何使用不同编码读/写文件的任何建议?
还有一件事,我不知道如何获取我正在阅读的html文件的字符编码,我知道我需要以相同的编码编写文件,但不知道如何获取原始文件的编码 谢谢,
答案 0 :(得分:4)
FileReader
存在,它隐含地使用平台默认编码,这使得它几乎没用。Content-Type
HTTP header的HTTP级别上 - 但这仅在您从网络服务器读取文件时可用,而不是在将其保存为文件时<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
<?xml version="1.0" encoding="UTF-8"?>