应用错误收集

C ++和Java编码

时间：2014-02-03 20:11:04

标签： java c++ unicode encoding utf-8

我正在尝试使用套接字进行Java应用程序和VS C ++应用程序的通信并向对方发送不同的消息。到目前为止我遇到的唯一问题 - 我的编码绝对丢失了。

默认情况下，Java使用UTF-8。就我而言，这是一个Unicode字符集。在我的VS项目中，我将设置设置为Unicode。虽然出于某种原因，当我调试我的代码时，我总是看到我的字符串在内存中编码为CP1252。此外，如果我尝试在Java中使用CP1252，它适用于英文字母，但每当我尝试一些俄语字母时，我会得到一个3f字节的每个字母。另一方面，我尝试在Java中使用UTF-8 - 每个英文字母长1个字节，但每个俄文字母长2个字节。它不是多字节编码吗？

有些关于C ++的文档说std::string(char)使用UTF-8代码页，而std:wstring(wchar_t)使用UTF-16。当我调试我的应用程序时，我看到它们都有CP1252编码，尽管wstring在每个字母之间都有空字节。

请问您能解释编码在Java和C ++中的行为，以及我应该如何传达我的2个应用程序？

3 个答案:

答案 0 :(得分：2)

UTF-8每个字符的长度可变。通过每个字符使用更少的字节，常见字符占用更少的空间。更多不常见的字符占用更多空间，因为它们必须以更多字节编码。由于大多数这是在美国发明的，猜猜哪些字符更短，哪些字符更长？

如果您希望套接字工作，那么您必须让双方同意编码。否则，你正在打一场失败的战斗。

答案 1 :(得分：0)

java执行utf-8编码并不正确。您可以在utf8中编写源代码，并使用属性中的一些奇怪的符号进行编译（有时真的很烦人）。

字符串java中的内部表示形式为utf-16（参见What is the Java's internal represention for String? Modified UTF-8? UTF-16?）

答案 2 :(得分：0)

Unicode是一个字符集，UTF-8和UTF-16是Unicode的编码。对于英语（实际上是ASCII）字符，UTF-8产生与CP1252相同的值，UTF-16增加一个零字节。如果您想使用俄语（西里尔语），您可以使用UTF-8，UTF-16或CP1251。但两个应用程序必须就编码达成一致。

例如，如果您同意使用UTF-8，则以下内容将使用UTF-8将Java String转换为字节数组：

byte [] b = s.getBytes（“UTF-8”）;

然后：

outputStream.write（B）;

将在套接字上发送数据。