我需要有关机器学习输入的帮助/意见。
我有一个hdf5文件
combined.h5
包含多个数据集,其中每个数据集包含4 X 125(4行和125列)矩阵
我一直在搜索如何输入包含矩阵的hdf5文件作为机器学习的输入,但没有找到任何足够好的答案/示例作为参考。以下是我修改后的脚本
import numpy as np
import h5py
from keras.models import Sequential
from keras.layers import Dense
seed = 7
np.random.seed(seed)
dataset = h5py.File('combined.h5', 'r') #has 5 dataset
X = dataset #input
Y = ["A","CFL","SS","G","FF"] #output
model = Sequential()
model.add(Dense(125, input_dim=125, init='normal', activation='relu'))
model.add(Dense(5, init='uniform', activation='sigmoid'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X, Y, nb_epoch=150, batch_size=10)
scores = model.evaluate(X, Y)
print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
我运行此脚本并收到如下错误
TypeError: Error when checking model input: data should be a Numpy array, or list/dict of Numpy arrays. Found: <HDF5 file "combined.h5" (mode r)>...
我的问题是如何加载包含矩阵形式的数据集的hdf5文件作为机器学习的输入数据?
*其他问题,我想链接每个数据集的输出。例如,数据集1具有&#34; A&#34;的输出数据,数据集2具有&#34; CFL&#34;的输出数据。等等... 有没有正确的方法来做到这一点,还是我在剧本中写的内容足够了?
感谢您的帮助。
答案 0 :(得分:0)
这应该适用于每个命名数据集:
X = dataset['dataset_name'][:] #input
找出数据集的名称,您可以使用以下脚本:
for key in dataset.keys():
print key
在这里,您可以从文件中获取完整数据集。如果不对数据集进行切片,则只能获得指向h5py数据集对象的指针。使用切片运算符可以提取numpy数组。 (http://docs.h5py.org/en/latest/high/dataset.html#reading-writing-data)
您只需要将hdf5文件想象成一个文件夹结构,您必须遍历文件夹结构才能获取数据。然后,您可以使用切片来加载数据。