字节序的类型

时间:2008-08-21 23:42:44

标签: endianness

以下类型的字节序有什么区别?

  • 字节(8b)不变的大小端点
  • 半字(16b)不变大和小字节
  • 字(32b)不变的大而小的字节序
  • 双字(64b)不变大和小字节

还有其他类型/变体吗?

8 个答案:

答案 0 :(得分:24)

有两种端点映射方法:地址不变性数据不变性

地址不变性

在这种类型的映射中,字节地址始终保持在大小之间。这具有颠倒特定数据(例如2或4字节字)的重要性顺序(最重要到最不重要)并因此反转数据的解释的副作用。具体来说,在little-endian中,数据的解释对于最重要的字节而言是最不重要的,而在big-endian中,解释对于最不重要而言是最重要的。在这两种情况下,访问的字节集保持不变。

示例

地址不变性(也称为字节不变性):字节地址是常量但字节重要性是相反的。

Addr   Memory
       7    0
       |    |    (LE)   (BE)
       |----|
 +0    | aa |    lsb    msb
       |----|
 +1    | bb |     :      :
       |----|
 +2    | cc |     :      :
       |----|
 +3    | dd |    msb    lsb
       |----|
       |    |

At Addr=0:          Little-endian          Big-endian
Read 1 byte:              0xaa                0xaa   (preserved)
Read 2 bytes:           0xbbaa              0xaabb
Read 4 bytes:       0xddccbbaa          0xaabbccdd

数据不变性

在这种类型的映射中,对于特定大小的数据保留相对字节重要性。因此,对于不同的基准尺寸,存在不同类型的数据不变端点映射。例如,32位字不变字节序映射将用于32的数据大小。保留特定大小数据的值的效果是,在大端映射和小端映射之间,字节中字节的字节地址是相反的。

示例

32位数据不变性(也称为字不变性):数据是一个32位字,总是具有值0xddccbbaa,与字节序无关。但是,对于小于一个字的访问,字节的地址在大端映射和小端映射之间是相反的。

Addr                Memory

            | +3   +2   +1   +0 |  <- LE
            |-------------------|
+0      msb | dd | cc | bb | aa |  lsb
            |-------------------|
+4      msb | 99 | 88 | 77 | 66 |  lsb
            |-------------------|
     BE ->  | +0   +1   +2   +3 |


At Addr=0:             Little-endian              Big-endian
Read 1 byte:                 0xaa                    0xdd
Read 2 bytes:              0xbbaa                  0xddcc
Read 4 bytes:          0xddccbbaa              0xddccbbaa   (preserved)
Read 8 bytes:  0x99887766ddccbbaa      0x99887766ddccbbaa   (preserved)

示例

16位数据不变性(也称为半字不变性):数据为16位 它始终具有值0xbbaa,与字节序无关。但是,对于小于半字的访问,字节的地址在大端映射和小端映射之间是相反的。

Addr           Memory

            | +1   +0 |  <- LE
            |---------|
+0      msb | bb | aa |  lsb
            |---------|
+2      msb | dd | cc |  lsb
            |---------|
+4      msb | 77 | 66 |  lsb
            |---------|
+6      msb | 99 | 88 |  lsb
            |---------|
     BE ->  | +0   +1 |


At Addr=0:             Little-endian              Big-endian
Read 1 byte:                 0xaa                    0xbb
Read 2 bytes:              0xbbaa                  0xbbaa   (preserved)
Read 4 bytes:          0xddccbbaa              0xddccbbaa   (preserved)
Read 8 bytes:  0x99887766ddccbbaa      0x99887766ddccbbaa   (preserved)

示例

64位数据不变性(也称为双字不变性):数据为64位 始终具有值0x99887766ddccbbaa的单词,与字节顺序无关。但是,对于小于双字的访问,字节的地址在大端映射和小端映射之间是相反的。

Addr                         Memory

            | +7   +6   +5   +4   +3   +2   +1   +0 |  <- LE
            |---------------------------------------|
+0      msb | 99 | 88 | 77 | 66 | dd | cc | bb | aa |  lsb
            |---------------------------------------|
     BE ->  | +0   +1   +2   +3   +4   +5   +6   +7 |


At Addr=0:             Little-endian              Big-endian
Read 1 byte:                 0xaa                    0x99
Read 2 bytes:              0xbbaa                  0x9988
Read 4 bytes:          0xddccbbaa              0x99887766
Read 8 bytes:  0x99887766ddccbbaa      0x99887766ddccbbaa   (preserved)

答案 1 :(得分:3)

还有中间或混合端。有关详细信息,请参阅wikipedia

我唯一需要担心的是在C语言中编写一些网络代码时,网络通常使用big-endian IIRC。大多数语言要么抽象整个事物,要么提供库来保证你使用正确的字节序。

答案 2 :(得分:3)

Philibert说,

  

位实际上是倒置的

我怀疑任何架构都会破坏字节值的不变性。当根据数据映射包含它们的结构时,位字段的顺序可能需要反转。这种直接映射依赖于编译器细节,这些编译器细节不在C99标准之内,但可能仍然很常见。直接映射速度更快,但不符合不规定打包,对齐和字节顺序的C99标准。符合C99的代码应使用基于值而不是地址的慢映射。也就是说,而不是这样做,

#if LITTLE_ENDIAN
  struct breakdown_t {
    int least_significant_bit: 1;
    int middle_bits: 10;
    int most_significant_bits: 21;
  };
#elif BIG_ENDIAN
  struct breakdown_t {
    int most_significant_bits: 21;
    int middle_bits: 10;
    int least_significant_bit: 1;
  };
#else
  #error Huh
#endif

uint32_t data = ...;
struct breakdown_t *b = (struct breakdown_t *)&data;

应该写这个(这就是编译器无论如何都会生成代码,即使对于上面的“直接映射”),

uint32_t data = ...;
uint32_t least_significant_bit = data & 0x00000001;
uint32_t middle_bits = (data >> 1) & 0x000003FF;
uint32_t most_significant_bits = (data >> 11) & 0x001fffff;

需要在每个端点中立的特定于应用程序的数据存储单元中反转位字段顺序的原因是编译器将位字段打包成增长地址的字节。

每个字节中的“位顺序”无关紧要,因为提取它们的唯一方法是应用值掩码并移位到最低有效位或最高有效位方向。 “比特顺序”问题只会在具有位地址概念的虚构结构中变得重要。我相信所有现有的体系结构都隐藏了硬件中的这一概念,并且只提供最小的与最重要的位提取,这是基于字节序中性字节值的概念。

答案 3 :(得分:1)

实际上,我将机器的字节序描述为单词内的字节的顺序,而不是的顺序。

“字节”在那里我指的是“架构可以单独管理的最小内存单元”。因此,如果最小单位是16位长(在x86中称为),那么表示值0xFFFF0000的32位“字”可以像这样存储:

FFFF 0000

或者这个:

0000 FFFF

在内存中,取决于字节顺序。

因此,如果你有8位字节序,则意味着每个由16位组成的字将被存储为:

FF 00

或:

00 FF

等等。

答案 4 :(得分:1)

我读到关于字数“Understanding Big and Little Endian Byte Order”的最佳文章。

答案 5 :(得分:0)

实际上,endianess指的是处理器解释给定内存位置内容的方式。例如,如果我们的内存位置0x100具有以下内容(十六进制字节)


  0x100:  12 34 56 78 90 ab cd ef

Reads    Little Endian            Big Endian
 8-bit:  12                        12
16-bit:  34 12                     12 34
32-bit:  78 56 34 12               12 34 56 78
64-bit:  ef cd ab 90 78 56 34 12   12 34 56 78 90 ab cd ef

您需要注意结束的两种情况是使用网络代码,如果您使用指针进行强制转换。

TCP / IP指定线路上的数据应为大端。如果传输除字节数组以外的类型(如指向结构的指针),则应确保使用ntoh / hton宏来确保数据以big endian形式发送。如果您从小端处理器发送到大端处理器(反之亦然),数据将会出现乱码......

投射问题:


 uint32_t* lptr = 0x100;
 uint16_t  data;
 *lptr = 0x0000FFFF

 data = *((uint16_t*)lptr);

数据的价值是什么? 在大端系统上,它将为0在小端系统上,它将是FFFF

答案 6 :(得分:0)

13年前,我在DEC ALPHA系统和PC上都使用了便携式工具。在这个DEC ALPHA上,位实际上被反转。那就是:

1010 0011

实际上翻译为

1100 0101

除了我有一个声明为

的位域外,它在C代码中几乎是透明和无缝的
typedef struct {
   int firstbit:1;
   int middlebits:10;
   int lastbits:21;
};

需要翻译成(使用#ifdef条件编译)

typedef struct {
   int lastbits:21;
   int middlebits:10;
   int firstbit:1;
};

答案 7 :(得分:-1)

基本概念是位的排序:

1010 0011
中的

相同
0011 1010

在big-endian中(反之亦然)。

您会注意到订单的分组更改,而不是单个位。我不知道系统,例如,

1100 0101

将是第一个版本的“other-endian”版本。