将h5文件转换为csv文件或文本文件以进行数据处理

时间:2013-08-28 17:39:42

标签: csv hadoop hdf5

我有一个大约1.85 GB的数据集,其中包含h5文件,我需要使用hadoop处理这些文件,为此我可能需要将这些文件转换为text或csv。  是否有任何方式hadoop可以读取h5文件?或任何好的在线工具将h5文件转换为csv或文本文件?或者任何人都可以提供一个链接,我可以下载一个包含文本或csv文件的巨大数据集?

提前致谢

1 个答案:

答案 0 :(得分:0)

您是否尝试过使用hdf5_handler模​​块的OPeNDAP Hyrax服务器?

例如,从样本HDF5文件[1]中,您可以获得以下ASCII数据[2]:

Dataset: grid_1_2d.h5
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13
...

使用hdf5_handler的OPeNDAP Hyrax服务器是一个很棒的工具/服务,因为您可以使用HTML表单轻松地从HDF5文件中选择(和子集)数据集[3]。您可以从[4]中找到有关OPeNDAP hdf5_handler的详细信息。

[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5

[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii

[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html

[4] http://hdfeos.org/software/hdf5_handler.php