C ++中整数向量的序列化/反序列化

时间:2018-07-08 09:50:02

标签: c++ optimization serialization

要完成的任务

我正在尝试将整数向量序列化为字符串,以便可以将其存储到文件中。所使用的方法是将整数逐字节复制到缓冲区中。为此,我使用了std :: copy_n函数。

要反序列化,我做了相反的事情,即从缓冲区中逐字节复制到整数,并将这些整数附加到向量上。

我不确定这是否是实现此目标的最佳/最快方法。

代码

序列化功能

char *serialize(vector <int> nums)
{
    char *buffer = (char *)malloc(sizeof(int)*nums.size());
    vector <int>::iterator i;
    int j;
    for(i = nums.begin(), j = 0; i != nums.end(); i++, j += 4) {
        copy_n(i, 4, buffer+j);
    }
    return buffer;
}

反序列化功能

vector <int> deserialize(char *str, int len)
{
    int num;
    vector <int> ret;
    for(int j = 0; j < len; j+=4) {
        copy_n(str+j, 4, &num);
        ret.push_back(num);
    }
    return ret;
}

任何有关如何改进这段代码的输入都将非常有帮助。我也很想知道其他实现相同目标的方法。

2 个答案:

答案 0 :(得分:1)

  

但我不确定这是否是实现此目标的最佳/最快方法。

深呼吸...

最简单的问题具有最复杂的答案。

可以说,最简单的方法是将整数作为十进制数字流式传输。如果文件的可读性对您来说很重要,那么这是“最佳”。

从程序员的角度来看,您使用的方法是最简单的方法,但它并未尝试满足不同系统上整数的不同位表示形式。因此,这很简单,直到您想在另一台计算机上读回该文件时,这才令人头疼。

还请注意,以上两种方法都不节省空间。对于I / O,较短的总是更快,并且在写入之前和之后读取数据所花费的时间与传输或存储数据所花费的时间相形见

如果真正的I / O性能和可移植性对您很重要(可能应该如此),那么您可能需要考虑采用适当的编码方案。

Zig-Zag编码一种既可移植又高效的方案。它的工作原理是,我们生活中遇到的大多数整数往往比INT_MAX更接近于零。

一些使您入门的链接:

https://gist.github.com/mfuerstenau/ba870a29e16536fdbaba

https://developers.google.com/protocol-buffers/docs/encoding

答案 1 :(得分:0)

您的方法有很多问题。

char *serialize(vector <int> nums)
{
    char *buffer = (char *)malloc(sizeof(int)*nums.size());
    vector <int>::iterator i;
    int j;
    for(i = nums.begin(), j = 0; i != nums.end(); i++, j += 4) {
        copy_n(i, 4, buffer+j);
    }
    return buffer;
}

1)它手动分配内存,这很危险,很少需要。

2)并没有您认为的那样。它从字面上复制每个int并尝试将其填充到char中。因此,如果任何值都超过255(可放入char的最大数量),则数据将被破坏。

如果您正在寻找效率,那么我认为最好的方法是将数据直接写入输出流,而不是先将其转换为字符串。

请记住,像这样写二进制数据 不可移植。我只会用它来序列化/反序列化本地数据。理想情况下是一次会议。除此之外,您还必须开始考虑使每个输出数据可移植,并且变得更加复杂。就个人而言,除非绝对必要,否则我将完全避免使用二进制方法。

如果必须这样做,我可能会做更多类似的事情:

template<typename POD>
std::ostream& serialize(std::ostream& os, std::vector<POD> const& v)
{
    // this only works on built in data types (PODs)
    static_assert(std::is_trivial<POD>::value && std::is_standard_layout<POD>::value,
        "Can only serialize POD types with this function");

    auto size = v.size();
    os.write(reinterpret_cast<char const*>(&size), sizeof(size));
    os.write(reinterpret_cast<char const*>(v.data()), v.size() * sizeof(POD));
    return os;
}

template<typename POD>
std::istream& deserialize(std::istream& is, std::vector<POD>& v)
{
    static_assert(std::is_trivial<POD>::value && std::is_standard_layout<POD>::value,
        "Can only deserialize POD types with this function");

    decltype(v.size()) size;
    is.read(reinterpret_cast<char*>(&size), sizeof(size));
    v.resize(size);
    is.read(reinterpret_cast<char*>(v.data()), v.size() * sizeof(POD));
    return is;
}

这些功能的接口遵循标准库中的约定,并且足够灵活,您可以使用它来序列化为文件(使用std::fstream)或字符串(使用std::stringstream)。

std::vector<int> v = {1, 2, 3, 500, 900};

std::stringstream oss; // this could just as well be a `std::fstream` 

if(serialize(oss, v))
{
    std::vector<int> n;
    if(deserialize(oss, n))
    {
        for(auto i: n)
            std::cout << i << '\n';
    }
}

输出:

1
2
3
500
900