我浏览了许多教程,对我的问题的答案有所不同。
因此,对于seq2seq模型(英语到法语的翻译),我有encoder_input_data
,它的英语短语没有<start>
和<stop>
标签。
我对decoder_input_data
和decoder_target_data
感到困惑。
目前,我的数据以这种方式进行组织,结果一无所获。
decoder_input_data
:包含同时具有<start>
和<stop>
标签的法语短语。decoder_target_data
:包含仅带有<stop>
标签的法语短语。lesson from Google说,英语和法语短语都必须在开头和结尾都具有标签。而且,我没有任何结果。
我应该在解码器的输入中放入
<start>
和<stop>
标签吗?还是应该在解码器的输入中仅包含<start>
,在解码器的目标中仅包含<stop>
标签?为NMT放置这些标签的正确方法是什么?