从文件读取时更改字节序

时间:2018-12-25 11:14:13

标签: c++ endianness

当有人读取文件时,我试图更好地理解字节序。

我正在使用的机器是低端字节序。

下面的代码应该可以读取任何文件类型。

但是,如果我们正在读取的文件是UTF-16BE编码的,那么我们在读取整个文件后是否应该更改字节序?

我问这是因为我打算编辑文件的内容并将其输出到控制台中。

如果我们应该更改字节序,那该怎么办?

现在我正在读取这样的文件:

std::ifstream file("/RANDOME/PATH/file.html", std::ios::in | std::ios::binary);

std::string result;

file.seekg(0, std::ios::end);   
result.reserve(t.tellg());
file.seekg(0, std::ios::beg);


result.assign((std::istreambuf_iterator<char>(file)),
            std::istreambuf_iterator<char>());


file.close();

我不知道在读取文件时如何将字节序从大更改为小。有人可以逐步向我展示如何正确完成吗? 我只是想学习。我知道该文件使用的是UTF-16BE编码,这不是猜测。

1 个答案:

答案 0 :(得分:0)

这里有一些代码可以满足您的需求。请注意,这段代码一次只读取一行输入文件,而不是一次全部读取。

#include <string>
#include <fstream>

void swap_bytes (char16_t *s)
{
    while (*s)
    {
        unsigned char *uc = (unsigned char *) s;
        unsigned char swap = *uc;
        *uc = uc [1];
        uc [1] = swap;
        ++s;
    }
}

int main ()
{
    std::basic_ifstream <char16_t> file ("/RANDOME/PATH/file.html", std::ios::in);
    if (!file)
        return 1;

    std::basic_string <char16_t> line;

    while (std::getline (file, line))
    {
        swap_bytes (line.data ());
        // ...
    }

    file.close();
}

如果不清楚,请在评论中说。

Live demo