我正在尝试构建一个具有注意机制的双向RNN,用于序列分类。我在理解辅助函数时遇到了一些问题。我已经看到用于训练的那个需要解码器输入,但是因为我想要从整个序列中获得单个标签,所以我不确切地知道我应该在这里给出什么输入。这是我到目前为止构建的结构:
# Encoder LSTM cells
lstm_fw_cell = rnn.BasicLSTMCell(n_hidden)
lstm_bw_cell = rnn.BasicLSTMCell(n_hidden)
# Bidirectional RNN
outputs, states = tf.nn.bidirectional_dynamic_rnn(lstm_fw_cell,
lstm_bw_cell, inputs=x,
sequence_length=seq_len, dtype=tf.float32)
# Concatenate forward and backward outputs
encoder_outputs = tf.concat(outputs,2)
# Decoder LSTM cell
decoder_cell = rnn.BasicLSTMCell(n_hidden)
# Attention mechanism
attention_mechanism = tf.contrib.seq2seq.LuongAttention(n_hidden, encoder_outputs)
attn_cell = tf.contrib.seq2seq.AttentionWrapper(decoder_cell,
attention_mechanism, attention_size=n_hidden)
name="attention_init")
# Initial attention
attn_zero = attn_cell.zero_state(batch_size=tf.shape(x)[0], dtype=tf.float32)
init_state = attn_zero.clone(cell_state=states[0])
# Helper function
helper = tf.contrib.seq2seq.TrainingHelper(inputs = ???)
# Decoding
my_decoder = tf.contrib.seq2seq.BasicDecoder(cell=attn_cell,
helper=helper,
initial_state=init_state)
decoder_outputs, decoder_states = tf.contrib.seq2seq.dynamic_decode(my_decoder)
我的输入是一个序列[batch_size,sequence_length,n_features],我的输出是一个具有N个可能类[batch_size,n_classes]的单个向量。
您知道我在这里缺少什么,或者是否可以使用seq2seq进行序列分类?
答案 0 :(得分:1)
根据定义,Seq2Seq模型不适合这样的任务。顾名思义,它将一系列输入(句子中的单词)转换为标签序列(单词的词性)。在您的情况下,您正在寻找每个样本的单个标签,而不是它们的序列。
幸运的是,您已经拥有了所需的一切,因为您只需要编码器的输出或状态(RNN)。
使用此方法创建分类器的最简单方法是使用RNN的最终状态。在形状[n_hidden,n_classes]的顶部添加一个完全连接的图层。在此,您可以训练softmax层和损失,预测最终类别。
原则上,这不包括注意机制。但是,如果要包含一个,可以通过将学习的向量权衡RNN的每个输出然后取总和来完成。但是,这不能保证改善结果。为了进一步参考,https://arxiv.org/pdf/1606.02601.pdf实现了这种类型的注意机制,如果我没有弄错的话。