了解嵌入向量尺寸

时间:2019-05-10 10:38:39

标签: machine-learning neural-network deep-learning nlp recurrent-neural-network

在深度学习中,尤其是在NLP中,单词被转换为矢量表示,然后被馈送到诸如RNN的神经网络中。通过引用链接:

http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/#Word%20Embeddings

在“单词嵌入”部分中,据说:

  

嵌入W:words→Rn的单词是映射单词的参数化函数   在       一些语言到高维向量(可能是200到500维)

我不了解矢量维度的目的。相对于 20维向量 200维向量是什么意思?

它会提高模型的整体准确性吗?谁能给我一个关于向量维数选择的简单例子。

1 个答案:

答案 0 :(得分:1)

这些词嵌入也称为分布式词嵌入基于

  

您知道它保留的公司一个字

John Rupert Firth引用的

因此,我们通过单词的上下文了解单词的含义。您可以想到向量(一个单词)中的每个标量代表其概念的强度。 Prof. Pawan Goyal的这张幻灯片对此进行了说明。

enter image description here

因此,您希望有一个好的矢量大小来捕获相当数量的概念,但又不想太大的矢量,因为它会成为训练使用这些嵌入的模型的瓶颈。

向量的大小也是固定的,因为大多数人不训练自己的嵌入,而是使用公开可用的嵌入,因为它们在海量数据上训练了许多小时。因此,使用它们将迫使我们使用嵌入层,其尺寸由您正在使用的公开可用嵌入(word2vec,手套等)给出。

分布式词嵌入是NLP深度学习领域的一个重要里程碑。与基于tfidf的嵌入相比,它们提供了更好的准确性。