如何将NMT的句子列表扁平化为单个"句子"为了方便skipgram嵌入?

时间:2017-11-21 18:57:48

标签: python tensorflow neural-network word-embedding neural-mt

上下文

在实现神经机器翻译之前,首先应该学习源语言和目标语言的嵌入。为此,我们使用skip-gram Word2Vec模型。

上面链接的Tensorflow教程以单词列表开头。为了创建嵌入,每个单词用作预测输入单词的winodow中存在的目标单词的输入。因此,具有相似上下文的单词会得到类似的嵌入。

例如 ["I", "have", "a", "dog"]可能会生成以下输入/输出对:["have", "a"]["a", "dog"]

问题

对于NMT,数据集中存在许多不同的句子,所有句子都应该用于嵌入。最简单的解决方案"串联是不可行的,因为一个句子的结尾可能(错误!)被用作第二句开头的上下文。

Google的教程没有提供有关如何处理NMT嵌入的任何概述 - 应如何处理这些内容?

示例

["I", "have", "a", "dog"] ["You", "have", "a", "cat"] ["He", "is", "a", "blueberry"]

需要成为大小为12的list - 或者需要在how中更改其他内容,以避免生成错误的输入/输出对。

0 个答案:

没有答案