从C ++读取HDF5数据:如何阅读这种特定格式?

时间:2013-08-05 21:41:58

标签: c++ hdf5

我有一个我需要用C ++阅读的HDF5文件,但我遇到了麻烦,因为文件的格式看起来有点复杂......

HDF5文件包含从两个设备保存的数据。数据是时间序列;它可以看作两个数组,一个用于时间,第二个用于设备的实际输出。 采集数量是用户定义的,但两种设备的采集数量相同(因为它们的数据是同时采集的)。

例如,一个文件将包含来自10个收购的数据,其组织方式类似于:

/Device1/Acquisition_000
/Device1/Acquisition_001
[...]
/Device2/Acquisition_000
/Device2/Acquisition_001
[...]

每次采集都将包含时间数组和数据数组。

以下是HDFView在文件中看到的屏幕截图: File opened in HDFView

我虽然“路径”/ Device2 / Acquisition_000是一个数据集并试图这样读,但我遇到了麻烦。然后我使用h5dump转储.h5文件并得到以下内容:

HDF5 "data.h5" {
GROUP "/" {
GROUP "Device1" {
    DATASET "Acquisition_000" {
        DATATYPE  H5T_COMPOUND {
            H5T_IEEE_F64BE "Time";
            H5T_IEEE_F64BE "Signal";
        }
        DATASPACE  SIMPLE { ( 270000 ) / ( 270000 ) }
        DATA {
        (0): {
            0,
            -0.0933597
            },
        (1): {
            2e-05,
            -0.0476648
            },
        (2): {
            4e-05,
            -0.0628964
            },
[...]

现在我不知道应该怎么读这个结构。我看到了H5T_COMPOUND所以我尝试了http://www.hdfgroup.org/HDF5/doc/cpplus_RM/compound_8cpp-example.html的复合示例,但是数据集 - > read()似乎无法读取数据; valgrind报告在std :: cout中循环数据时访问未初始化的数据。

混乱的另一个原因是转储中的“H5T_IEEE_F64BE”;不是大端的BE部分?生成数据的机器和读取数据的机器都是x86_64 ......

如何将“时间”和“信号”数组读入C / C ++数组?

作为参考,这是我尝试调整示例:

const H5std_string FILE_NAME("data.h5");
const H5std_string DATASET_NAME("/Device1/Acquisition_000/");
H5File file(FILE_NAME, H5F_ACC_RDONLY);
DataSet dataset = file.openDataSet(DATASET_NAME);
const H5std_string MEMBER_TIME("time_name");
const H5std_string MEMBER_SIGN("signal_name");
// Try reading a single array:
CompType mtype3( sizeof(double) );
mtype3.insertMember(MEMBER_SIGN, 0, PredType::NATIVE_DOUBLE);
double *data_signal = new double[270000];
memset(data_signal, 0, 270000);
dataset.read(data_signal, mtype3);
// Print the data
for (int i = 0 ; i < 10 ; i++)
{
    std::cout << "data_signal[i=" << i << "] = " << data_signal[i] << std::endl;
}

及其输出:

data_signal[i=0] = 0
data_signal[i=1] = 0
data_signal[i=2] = 0
data_signal[i=3] = 0
data_signal[i=4] = 0
data_signal[i=5] = 0
data_signal[i=6] = 0
data_signal[i=7] = 0
data_signal[i=8] = 0
data_signal[i=9] = 0

此外,Matlab可以使用以下方式读取文件:

data = h5read('data.h5', '/Device1/Acquisition_000')
data = 

      Time: [270000x1 double]
    Signal: [270000x1 double]

非常感谢。

1 个答案:

答案 0 :(得分:3)

成员名称用于从文件中提取正确的数据字段。 “signal_name”与文件中的数据名称不匹配。尝试使用“信号”,从MATLAB和GUI查看器中可以看到。

最终,您需要定义一个表示时间/信号对的c ++结构,如复合示例:

struct dataPoint
{
    double timePoint;
    double signal;
};

CompType hdf5DataPointType( sizeof(dataPoint) );
hdf5DataPointType.insertMember(MEMBER_TIME, 0, PredType::NATIVE_DOUBLE);
hdf5DataPointType.insertMember(MEMBER_SIGN, sizeof(double), PredType::NATIVE_DOUBLE);

然后直接读入dataPoint数组。