我正在尝试将数据输入我的lstm。我具有跨多个csv的数据,因此我创建了一个生成器来加载它。但是,在为lstm准备数据时遇到一些问题。
我了解这段代码(我是从pytorch文档中获得的)
seq_len = 5
batch_size= 3
cols_num = 10
hidden_size=20
num_layers = 2
rnn = nn.LSTM(input_size=cols_num, hidden_size=hidden_size, num_layers=num_layers)
data = torch.randn(seq_len, batch_size, cols_num)
h0 = torch.randn(batch_size, seq_len, hidden_size)
c0 = torch.randn(batch_size, seq_len, hidden_size)
output, (hn, cn) = rnn(data)
但是,我认为我断开连接的是使用实际数据,而不是torch.randn()。
这是我当前的生成器:
def data_loader(batch_size, fp, dropcol, seq_len):
while True:
for f in fp:
gc.collect()
df=pd.read_csv(f)
df=df.replace(np.nan, 0)
df=df.drop(dropcol,1)
df['minute'] = df['minute'].apply(lambda x: min_idx(x))
row_count, col_count = df.shape
encoder_input = []
prev = 0
for idx, b in enumerate(range(1, row_count)):
end = prev + batch_size
window = df.iloc[prev:end]
prev = end - 1
w = np.array(window, dtype='float64')
if w.shape[0] != batch_size: break
encoder_input.append(w)
if idx == seq_len:
w0 = encoder_input
encoder_input = []
yield w0
但是运行此命令时会出错:
loader = data_loader(batch_size=batch_size, fp=<list of csvs>, dropcol=idcol, seq_len=2)
lstm = nn.LSTM(input_size=input_size, hidden_size=hidden_size, num_layers=num_layers, batch_first=batch_first)
for batch in loader:
b = torch.tensor(batch)
output, hidden = lstm(b)
错误:
RuntimeError: Expected object of scalar type Float but got scalar type Double for argument #4 'mat1'
我的思维方式有什么错误?另外,如何从数据中格式化h0或c0?
答案 0 :(得分:1)
错误与您的想法无关,错误与Pytorch模型如何接受输入有关。在Pytorch张量中创建的默认数据类型为torch.float64
模型接受的默认(可能是唯一的)数据类型为torch.float32
。
要解决此问题,请执行以下操作:
b = torch.tensor(batch, dtype=torch.float32)
这会将您的输入转换为torch.float32
。