Question

我有一个大约1.85 GB的数据集，其中包含h5文件，我需要使用hadoop处理这些文件，为此我可能需要将这些文件转换为text或csv。是否有任何方式hadoop可以读取h5文件？或任何好的在线工具将h5文件转换为csv或文本文件？或者任何人都可以提供一个链接，我可以下载一个包含文本或csv文件的巨大数据集？

提前致谢

Answer 1

您是否尝试过使用hdf5_handler模块的OPeNDAP Hyrax服务器？

例如，从样本HDF5文件[1]中，您可以获得以下ASCII数据[2]：

Dataset: grid_1_2d.h5
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13
...

使用hdf5_handler的OPeNDAP Hyrax服务器是一个很棒的工具/服务，因为您可以使用HTML表单轻松地从HDF5文件中选择（和子集）数据集[3]。您可以从[4]中找到有关OPeNDAP hdf5_handler的详细信息。

[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5

[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii

[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html

[4] http://hdfeos.org/software/hdf5_handler.php

将h5文件转换为csv文件或文本文件以进行数据处理

1 个答案: