涉及const_cast的意外行为

时间:2019-05-28 21:58:36

标签: c++ const stdstring const-cast copy-on-write

我想到了以下示例,该示例暴露了一些意外行为。 我希望在push_back之后,向量中存在任何内容。 看起来编译器以某种方式决定重新使用str使用的内存。

有人可以解释此示例中发生的情况吗? 这是有效的C ++代码吗?

最初的问题来自负责对消息进行序列化/反序列化的代码,并且使用const_cast删除了constness。 在注意到该代码的某些意外行为之后,我创建了这个简化的示例,试图演示该问题。

#include <vector>
#include <iostream>
#include <string>
using namespace std;
int main()
{
    auto str = std::string("XYZ"); // mutable string
    const auto& cstr(str);         // const ref to it

    vector<string> v;
    v.push_back(cstr);

    cout << v.front() << endl;  // XYZ is printed as expected

    *const_cast<char*>(&cstr[0])='*'; // this will modify the first element in the VECTOR (is this expected?)
    str[1]='#';  //

    cout << str << endl;  // prints *#Z as expected
    cout << cstr << endl; // prints *#Z as expected
    cout << v.front() << endl; // Why *YZ is printed, not XYZ and not *#Z ?

    return 0;
}

1 个答案:

答案 0 :(得分:4)

了解错误

发生意外的行为是由于std::string的折旧实现中的古怪之处。较旧的GCC版本使用写时复制std::string >语义。这是一个聪明的主意,但它会引起您所看到的错误。这意味着GCC试图定义std::string,以便仅在修改了新的std::string后才复制内部字符串缓冲区。例如:

std::string A = "Hello, world";
std::string B = A; // No copy occurs (yet)
A[3] = '*'; // Copy occurs now because A got modified.

但是,当您使用常量指针时,由于库假定不会通过该指针修改字符串,所以不会发生复制:

std::string A = "Hello, world"; 
std::string B = A;
std::string const& A_ref = A;

const_cast<char&>(A_ref[3]) = '*'; // No copy occurs (your bug)

您已经注意到,写时复制语义往往会导致错误。因此,由于复制字符串非常便宜(考虑到所有因素),std::string的复制写时复制实现被折旧并删除在GCC 5中。

那么,如果您使用的是GCC 5,为什么会看到此错误?可能是您正在编译并链接旧版本的C ++标准库(写时复制的地方)仍是std::string的实现)。这就是给您造成错误的原因。

检查您要针对哪个版本的C ++标准库进行编译,并在可能的情况下更新编译器。

我怎么知道我的编译器正在使用std::string的哪个实现?

  • 新的GCC实施:sizeof(std::string) == 32(当编译为64位时)
  • 旧版GCC实施:sizeof(std::string) == 8(编译64位时)

如果编译器使用的是std::string的旧实现,则sizeof(std::string)sizeof(char*)相同,因为std::string被实现为指向内存块的指针。内存块实际上是包含诸如字符串的大小和容量之类的块。

struct string { //Old data layout
    size_t* _data; 
    size_t size() const {
        return *(data - SIZE_OFFSET); 
    }
    size_t capacity() const {
        return *(data - CAPACITY_OFFSET); 
    }
    char const* data() const {
        return (char const*)_data; 
    }
};

另一方面,如果您使用的是std::string的较新实现,则sizeof(std::string)应该是32字节(在64位系统上)。这是因为较新的实现将字符串的大小和容量存储在std::string本身内,而不是存储在其指向的数据中:

struct string { // New data layout
    char* _data;
    size_t _size;
    size_t _capacity; 
    size_t _padding; 
    // ...
}; 

新实施有什么好处?新实施有很多好处:

  • 访问大小和容量可以更快地完成(因为优化器更可能将它们存储在寄存器中,或者至少它们很可能存储在缓存中)
  • 因为std::string是32个字节,所以我们可以利用小字符串优化。小字符串优化允许将少于16个字符的字符串存储在_capacity_padding通常占用的空间内。这避免了堆分配,并且对于大多数用例而言速度更快。

我们可以在下面看到GDB使用std::string的旧实现,因为sizeof(std::string)返回8个字节:

enter image description here