java中的多字节编码

时间:2011-04-28 18:46:41

标签: encoding multibyte cjk

我不知道如何添加多字节编码支持和很少有关于多字节语言的知识。 在使用搜索引擎时,我的应用程序会扫描所有编程语言的代码。 某些源代码可能在其注释部分中具有CJK编码。 为了方便起见,我将java作为源代码示例,我的应用程序也在java中。

首先,我想编写测试用例,以查看待索引的源代码是否具有CJK编码,以及是否由我的应用程序编码。 如果不包括支持,我希望我的测试失败,以便将来可以添加。

但我不知道如何测试它, 如何在单元测试的输入样本中引入CJK以及在Java应用程序控制台中输出什么。

1 个答案:

答案 0 :(得分:0)

Byte Order Mark的存在可能有用,但它们是可选的。当使用UTF时,还有其他方法可用于确定编码。这可能有用:Java : How to determine the correct charset encoding of a stream