如何在张量流中构造基于字符的seq2seq模型

时间:2016-02-22 09:59:16

标签: machine-learning neural-network tensorflow recurrent-neural-network

对tensorflow中现有的seq2seq模型需要进行哪些更改,以便我可以使用字符单位而不是seq2seq任务的现有单词单位?对于预测性的ext应用程序,这是一个很好的配置吗?

以下功能签名可能需要修改此任务:

def embedding_rnn_seq2seq(encoder_inputs, decoder_inputs, cell,
                          num_encoder_symbols, num_decoder_symbols,
                          output_projection=None, feed_previous=False,
                          dtype=dtypes.float32, scope=None):

除了减少输入输出词汇量之外,还需要其他参数更改才能实现这样的字符级别seq2seq模型?

1 个答案:

答案 0 :(得分:0)

我认为你可以在张量流中使用现有的seq2seq模型,而不需要对基于字符的单元进行任何代码更改,如果你通过空格分隔训练样例来准备输入数据文件,如下所示:

The quick brown fox.

变为:

T h e _SPACE_ q u i c k _SPACE_ b r o w n _SPACE_ f o x .

然后你的词汇自然变成了字符而不是单词。

您可以使用嵌入大小,消除嵌入层等来体验词汇大小,以查看最适合您数据的内容。