我不知道如何添加多字节编码支持和很少有关于多字节语言的知识。 在使用搜索引擎时,我的应用程序会扫描所有编程语言的代码。 某些源代码可能在其注释部分中具有CJK编码。 为了方便起见,我将java作为源代码示例,我的应用程序也在java中。
首先,我想编写测试用例,以查看待索引的源代码是否具有CJK编码,以及是否由我的应用程序编码。 如果不包括支持,我希望我的测试失败,以便将来可以添加。
但我不知道如何测试它, 如何在单元测试的输入样本中引入CJK以及在Java应用程序控制台中输出什么。
答案 0 :(得分:0)
Byte Order Mark的存在可能有用,但它们是可选的。当使用UTF时,还有其他方法可用于确定编码。这可能有用:Java : How to determine the correct charset encoding of a stream。