我目前是深度学习的业余爱好者,正在阅读本网站上的word2vector Relative Layouts are less performant than other view groups, especially when nested
对于CBOW或skipgram模型,我可以看到单词向量的维度为300,词汇量大小为15000.我在前面的文章中读到的是,我们可以对向量中的单词进行硬编码。所以我猜单词向量维度应该等于词汇量大小或者以不同的方式提出问题,这个单词维度是什么以及如何将其可视化。你如何看待这个维度?
答案 0 :(得分:5)
“Word Vector Dimension”是您使用培训文档训练的矢量的维度。从技术上讲,你可以选择任何尺寸,如10,100,300甚至1000.行业标准是300-500,因为我们已经尝试了不同的尺寸(300,400,500,...... 1000等),但没有注意到300-400后显着的性能提升。 (这也取决于你的训练数据。)听起来,更多维度意味着更重的计算。但是,如果我们将维度设置得太低,则没有太多的向量空间来捕获整个培训文档包含的信息。
如何形象化?
您无法轻易地对300维矢量进行可视化,并且可能可视化300维矢量对您来说并不太有用。我们可以做的是将这些向量投射到二维空间,这是我们最熟悉的空间,也是我们可以轻松理解的空间。
你的最后一句话所以我猜单词矢量维度应该等于词汇量是错误的! 词汇大小为171,476个单词(英语单词总数)!单词向量维度(大多数为300-500。你不想训练10亿维向量,对吗?)是你提前决定训练数据的向量的大小。我的视频(无耻插件)将帮助您理解重要的单词矢量概念:AI with the Best
答案 1 :(得分:1)
实际上,单词矢量维度并不反映词汇量。 Word2Vec正在做的是将单词映射到它们在向量空间中的表示,你可以创建你想要的任何维度的这个空间:每个单词用这个空间中的一个点表示,单词向量维度是这个单词的坐标。空间。 在这个空间中,往往出现在相同上下文中的单词也会彼此相邻。
希望这有帮助