我仍然试图用Java中的unicode处理和编码中文字符,也许有人可以解释我在调试器中看到的内容。我希望我可以保持简单,不要深入研究codePoints
或使用getBytes
并简单地坚持toCharArray
。我从Web API /页面或Google表格中检索带有中文字符的字符串。我的理解是,这一切都在Java内部作为UTF-16处理(对用户隐藏)。我似乎(可靠地)每个汉字得到2(Java)chars
,甚至像问号和标点符号。通过toCharArray
将字符串转换为字符数组时,我似乎几乎总能看到一个领先的' u200b' (空格)然后用正确的unicode实际字符。 (我知道这更复杂,我可能说错了)。
char[] FW_Array = tmpChar.toCharArray();
但这是我的实际问题,我似乎只得到了一个(Java)char
用于' - '在第一种情况下,对于(我假设)相同的字符,我在第二种情况下得到两个(Java)char
。怎么样?