我有一个大约1.85 GB的数据集,其中包含h5文件,我需要使用hadoop处理这些文件,为此我可能需要将这些文件转换为text或csv。 是否有任何方式hadoop可以读取h5文件?或任何好的在线工具将h5文件转换为csv或文本文件?或者任何人都可以提供一个链接,我可以下载一个包含文本或csv文件的巨大数据集?
提前致谢
答案 0 :(得分:0)
您是否尝试过使用hdf5_handler模块的OPeNDAP Hyrax服务器?
例如,从样本HDF5文件[1]中,您可以获得以下ASCII数据[2]:
Dataset: grid_1_2d.h5
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13
...
使用hdf5_handler的OPeNDAP Hyrax服务器是一个很棒的工具/服务,因为您可以使用HTML表单轻松地从HDF5文件中选择(和子集)数据集[3]。您可以从[4]中找到有关OPeNDAP hdf5_handler的详细信息。
[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5
[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii
[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html