从C ++文件导入5级MAT文件格式数据

时间:2012-01-19 11:30:30

标签: c++ matlab

我正在用C ++编写一个函数来加载基于MATLAB®的MAT-File(5级)格式 MAT-File Format 2011b doc(参见www.mathworks.com/help/pdf_doc/matlab/matfile_format.pdf)。

我必须遗漏一些东西(可能是C ++),因为字节数字段为零。成功读取MAT-File标头,数据类型元素标志也是如此,但字节数不是。加载mat文件的代码如下:

// file handler
ifstream file;
// open file
file.open(i_file, ifstream::in | ifstream::binary);
// check for errors
if (!file) return NULL;

/********** BEGIN MAT-File Header **********/
char header_text[116], header_offset[8], header_version[2], header_endian[2];
// The first 116 bytes of the header can contain text data in human-readable form.
file.read( (char*) &header_text, 116); cout << header_text << endl;
/* Header Subsystem Data Offset Field */
// Bytes 117 through 124 of the header contain an offset to subsystem-specific
// data in the MAT-file. 
file.read( (char*) &header_offset, 8); cout << header_offset << endl;
/* Header Flag Fields */
// Version When creating a MAT-file, set this field to 0x0100.
file.read( (char*) &header_version, 2); cout << header_version << endl;
// Endian Indicator. Contains the two characters, M and I, written to the
// MAT-file in this order, as a 16-bit value. 
file.read( (char*) &header_endian, 2); cout << header_endian << endl;

/********** END MAT-File Header **********/

/********** BEGIN MAT-File Data Element **********/

/* The Tag Field */
// The 8-byte data element tag is composed of two, 32-bit fields 
// Data Type
__int32_t data_type = file.get(); cout << data_type << endl;
// Number of Bytes
__int32_t num_bytes = file.get(); cout << num_bytes << endl;

输出如下:

MATLAB 5.0 MAT-file, Platform: GLNXA64, Created on: Fri May 20 18:21:46 2011


IM
15
0

从MATLAB我得到的信息:

  

whos -file PaviaU.mat

     

名称大小字节类属性

     

paviaU 610x340x103 170897600双

我是否错误地以某种方式加载了标题中的数据? 为什么字节数等于零?

编辑:如果我按如下方式读取数据元素(在一条评论中建议使用sa):

char data_type[4], num_bytes[4];
file.read((char*) &data_type, 4); cout << data_type << endl;
file.read((char*) &num_bytes, 4); cout << num_bytes << endl;

我在cout(二进制代码)

上获得了意外的值

但调试函数我可以检查两个变量:

data_type[0] = 15
data_type[1] = 0 '\0'
data_type[2] = 0 '\0'
data_type[3] = 0 '\0'

num_bytes[0] = -3/253
num_bytes[1] = 27
num_bytes[2] = 19
num_bytes[3] = 2

data_type值是15但是num_bytes中的-3/253呢?那个号码是什么?

1 个答案:

答案 0 :(得分:1)

根据规范,您的结果显示数据类型为

  

miCOMPRESSED:压缩数据

size字段显示您的数据大小为0x02131BFD或34,806,781字节。与原始大小170MB相比,此压缩率似乎合理,具体取决于您的数据。

假设你可以节省140MB,那么将文件保存为未压缩数据可能会更容易。保存为旧的.mat版本禁用压缩(mathworks)。我不知道在新的.mat文件中禁用它的方法。

修改

大小和数据类型字段可以更好地理解为:

uint32_t data_type, num_bytes;
file.read(reinterpret_cast<char*>(&data_type), sizeof(uint32_t));
file.read(reinterpret_cast<char*>(&num_bytes), sizeof(uint32_t));

这可以直接完成,因为您的机器是小端。如果endian字段的结果是相反的,那么在将它们存储在uint32之前,你必须交换所有字节的顺序。