Word嵌入到单词

时间:2018-06-02 21:35:14

标签: neural-network nlp keras word-embedding

我正在使用基于GloVe的预训练嵌入式向量,将我的I / P语句中的单词转换为类似NMT的模型。然后,模型生成一系列单词嵌入作为每个句子的输出。

如何将这些输出字嵌入转换为相应的字?我尝试的一种方法是在每个输出嵌入向量和所有i / p嵌入向量之间使用余弦相似性。还有比这更好的方法吗?

另外,有没有比使用嵌入向量更好的方法呢?

1 个答案:

答案 0 :(得分:0)

首先,问题是缺少很多细节,例如用于单词嵌入的库,模型的性质以及训练数据等。 但是,如果您使用的是Gensim之类的词嵌入库,我会尽力让您了解在这种情况下可以做什么。

如何从向量中获取单词: 我们在这里处理预测的单词向量,因此我们的单词向量可能不是原始单词的确切向量,我们必须使用相似性,在Gensim中,您可以使用similar_by_vector,类似

target_word_candidates = similar_by_vector(target_word_vector,top=3)

这将解决反向查找问题,如突出显示的here一样,鉴于所有单词向量都如何获得最相似的单词,但是我们需要根据上下文找到最佳的单个单词。

您可以对输出目标词向量进行某种后处理,这对于尝试解决一些问题很有帮助,例如:

1。如何指导词汇翻译 条款?

2。如何强制存在 在解码器中给出翻译建议 输出?

3。如何在右侧放置这些单词 位置?

其中一种想法是使用目标语言的外部资源(即语言模型)来预测将使用哪种单词组合。其他一些技术将外部知识整合到翻译网络本身中