在深度学习中,尤其是在NLP中,单词被转换为矢量表示,然后被馈送到诸如RNN的神经网络中。通过引用链接:
http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/#Word%20Embeddings
在“单词嵌入”部分中,据说:
嵌入W:words→Rn的单词是映射单词的参数化函数 在 一些语言到高维向量(可能是200到500维)
我不了解矢量维度的目的。相对于 20维向量, 200维向量是什么意思?
它会提高模型的整体准确性吗?谁能给我一个关于向量维数选择的简单例子。
答案 0 :(得分:1)
这些词嵌入也称为分布式词嵌入基于
由John Rupert Firth引用的您知道它保留的公司一个字
因此,我们通过单词的上下文了解单词的含义。您可以想到向量(一个单词)中的每个标量代表其概念的强度。 Prof. Pawan Goyal的这张幻灯片对此进行了说明。
因此,您希望有一个好的矢量大小来捕获相当数量的概念,但又不想太大的矢量,因为它会成为训练使用这些嵌入的模型的瓶颈。
向量的大小也是固定的,因为大多数人不训练自己的嵌入,而是使用公开可用的嵌入,因为它们在海量数据上训练了许多小时。因此,使用它们将迫使我们使用嵌入层,其尺寸由您正在使用的公开可用嵌入(word2vec,手套等)给出。
分布式词嵌入是NLP深度学习领域的一个重要里程碑。与基于tfidf的嵌入相比,它们提供了更好的准确性。