对tensorflow中现有的seq2seq模型需要进行哪些更改,以便我可以使用字符单位而不是seq2seq任务的现有单词单位?对于预测性的ext应用程序,这是一个很好的配置吗?
以下功能签名可能需要修改此任务:
def embedding_rnn_seq2seq(encoder_inputs, decoder_inputs, cell,
num_encoder_symbols, num_decoder_symbols,
output_projection=None, feed_previous=False,
dtype=dtypes.float32, scope=None):
除了减少输入输出词汇量之外,还需要其他参数更改才能实现这样的字符级别seq2seq模型?
答案 0 :(得分:0)
我认为你可以在张量流中使用现有的seq2seq模型,而不需要对基于字符的单元进行任何代码更改,如果你通过空格分隔训练样例来准备输入数据文件,如下所示:
The quick brown fox.
变为:
T h e _SPACE_ q u i c k _SPACE_ b r o w n _SPACE_ f o x .
然后你的词汇自然变成了字符而不是单词。
您可以使用嵌入大小,消除嵌入层等来体验词汇大小,以查看最适合您数据的内容。