我正在进行单词嵌入,并且对单词向量的维数有点困惑。我的意思是,以word2vec为例,我的问题是为什么我们应该使用让100个隐藏神经元为我们的隐藏层?这个数字背后有任何意义或逻辑吗?或者如果它是任意的,为什么不300?还是10?为什么不或多或少?众所周知,显示向量的最简单方法是在2维空间(仅X和Y),为什么更多维度?我读了一些关于它的资源,在一个例子中他们选择了100个维度,在另一个例子中他们选择了其他数字,如150,200,80等。
我知道数字越大,显示单词之间关系的空间越大,但我们无法在2维向量空间(仅X和Y)上显示关系?!为什么我们需要更大的空间每个单词都由一个向量显示,那么为什么当我们可以在2维或3维空间上显示向量时,我们必须使用高维空间?然后更简单地使用像余弦这样的相似技术来找到2或3维的相似性而不是100(从计算时间的角度来看),对吗?
答案 0 :(得分:1)
嗯..如果只是显示向量是你的最终游戏,你可以使用2维或3维向量,它会发挥最佳效果。
通常在NLP中,我们有明确定义的任务,如标记,解析,理解含义等。对于所有这些目的,更高维度的向量总是比2-d,3-d向量更好。因为它有更多的自由度来捕捉你所追求的关系。您可以通过它们包含更丰富的信息。
使用像余弦这样的相似技术来更简单地找到2或3维的相似性而不是100(从计算时间的角度来看),对吗?
没有。这就是说添加2个数字比添加100个数字更简单。方法(consine distance)完全相同。