在内存映射中使用reinterpret_cast时处理未定义的行为

时间:2019-03-07 01:51:31

标签: c++ undefined-behavior reinterpret-cast memory-mapping

为避免复制大量数据,需要mmap二进制文件并直接处理原始数据。这种方法具有几个优点,包括将分页委派给操作系统。不幸的是,据我了解,显而易见的实现会导致未定义行为(UB)。

我的用例如下:创建一个二进制文件,其中包含一些标头,用于标识格式并提供元数据(在这种情况下,仅是double值的数量)。文件的其余部分包含原始二进制值,我希望在不必首先将文件复制到本地缓冲区的情况下进行处理(这就是为什么我首先对文件进行内存映射)。下面的程序是一个完整的示例(如果很简单)(我相信所有标记为UB[X]的地方都将导致UB):

// C++ Standard Library
#include <algorithm>
#include <cstddef>
#include <cstdint>
#include <fstream>
#include <iostream>
#include <numeric>

// POSIX Library (for mmap)
#include <fcntl.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>

constexpr char MAGIC[8] = {"1234567"};

struct Header {
  char          magic[sizeof(MAGIC)] = {'\0'};
  std::uint64_t size                 = {0};
};
static_assert(sizeof(Header) == 16, "Header size should be 16 bytes");
static_assert(alignof(Header) == 8, "Header alignment should be 8 bytes");

void write_binary_data(const char* filename) {
  Header header;
  std::copy_n(MAGIC, sizeof(MAGIC), header.magic);
  header.size = 100u;

  std::ofstream fp(filename, std::ios::out | std::ios::binary);
  fp.write(reinterpret_cast<const char*>(&header), sizeof(Header));
  for (auto k = 0u; k < header.size; ++k) {
    double value = static_cast<double>(k);
    fp.write(reinterpret_cast<const char*>(&value), sizeof(double));
  }
}

double read_binary_data(const char* filename) {
  // POSIX mmap API
  auto        fp = ::open(filename, O_RDONLY);
  struct stat sb;
  ::fstat(fp, &sb);
  auto data = static_cast<char*>(
      ::mmap(nullptr, sb.st_size, PROT_READ, MAP_PRIVATE, fp, 0));
  ::close(fp);
  // end of POSIX mmap API (all error handling ommitted)

  // UB1
  const auto header = reinterpret_cast<const Header*>(data);

  // UB2
  if (!std::equal(MAGIC, MAGIC + sizeof(MAGIC), header->magic)) {
    throw std::runtime_error("Magic word mismatch");
  }

  // UB3
  auto beg = reinterpret_cast<const double*>(data + sizeof(Header));

  // UB4
  auto end = std::next(beg, header->size);

  // UB5
  auto sum = std::accumulate(beg, end, double{0});

  ::munmap(data, sb.st_size);

  return sum;
}

int main() {
  const double expected = 4950.0;
  write_binary_data("test-data.bin");

  if (auto sum = read_binary_data("test-data.bin"); sum == expected) {
    std::cout << "as expected, sum is: " << sum << "\n";
  } else {
    std::cout << "error\n";
  }
}

编译并运行为:

$ clang++ example.cpp -std=c++17 -Wall -Wextra -O3 -march=native
$ ./a.out
$ as expected, sum is: 4950

在现实生活中,实际的二进制格式要复杂得多,但保留相同的属性:基本类型以适当的对齐方式存储在二进制文件中。

我的问题是:您如何处理该用例?

我找到了许多我认为是矛盾的答案。

有些answers明确表示应该在本地构建对象。可能确实是这种情况,但会使任何面向数组的操作严重复杂化。

评论elsewhere对于这种构造的UB性质似乎同意,但是有一些分歧。

至少对我来说,cppreference中的措词令人困惑。我会把它解释为“我所做的事情完全合法”。特别是本段:

  

每当尝试读取或修改存储的值时,   动态类型类型的对象通过AliasedType类型的glvalue,   除非满足以下条件之一,否则行为是不确定的:

     
      
  • AliasedType和DynamicType相似。
  •   
  • AliasedType是DynamicType的(可能是经过简历验证的)带符号或无符号的变体。
  •   
  • AliasedType是std :: byte,(从C ++ 17开始)char或unsigned char:这允许将任何对象的对象表示形式检查为字节数组。
  •   

C ++ 17可能会为std::launder带来一些希望,或者我不得不等到C ++ 20才有类似std::bit_cast的东西。

同时,您如何处理此问题?

链接到在线演示:https://onlinegdb.com/rk_xnlRUV

C语言中的简化示例

我的理解是正确的,下面的C程序没有表现出未定义的行为?我了解通过char缓冲区进行转换的指针不参与严格的别名规则。

#include <stdint.h>
#include <stdio.h>

struct Header {
  char     magic[8];
  uint64_t size;
};

static void process(const char* buffer) {
  const struct Header* h = (const struct Header*)(buffer);
  printf("reading %llu values from buffer\n", h->size);
}

int main(int argc, char* argv[]) {
  if (argc != 2) {
    return 1;
  }
  // In practice, I'd pass the buffer through mmap
  FILE* fp = fopen(argv[1], "rb");
  char  buffer[sizeof(struct Header)];
  fread(buffer, sizeof(struct Header), 1, fp);
  fclose(fp);
  process(buffer);
}

我可以通过传递由原始C ++程序创建的文件来编译并运行此C代码,并且可以按预期工作:

$ clang struct.c -std=c11 -Wall -Wextra -O3 -march=native
$ ./a.out test-data.bin 
reading 100 values from buffer

1 个答案:

答案 0 :(得分:3)

std::launder通过严格的别名解决了问题,但没有对象生存期。

std::bit_cast进行复制(基本上是std::memcpy的包装),不适用于从一定范围的字节进行复制。

标准C ++中没有工具可以在不复制的情况下重新解释映射的内存。已经提出了这样的工具:std::bless。直到/除非在标准中采用了此类更改,否则您要么希望UB不会破坏任何内容,要么复制并复制潜在的††性能。 ,或使用C编写程序。

虽然并不理想,但这并不一定像听起来那样糟糕。您已经通过使用mmap限制了可移植性,并且如果您的目标系统/编译器承诺可以重新解释mmap内存(也许可以进行清洗),那么应该没有问题。也就是说,我不知道是否可以说Linux上的GCC提供了这样的保证。

††编译器可能会优化std::memcpy。可能不会影响性能。该SO answer中有一个方便的函数,据观察已被优化,但确实会遵循语言规则来启动对象生存期。它确实有一个局限性,映射的内存必须是可写的(因为它会在内存中创建对象,并且在未优化的版本中可能会进行实际复制)。