如果我将包含5个单词的句子传递给Doc2Vec模型,如果大小为100,则有100个向量。我没有得到那些载体。如果我将大小增加到200,那么只有一个简单句子就有200个向量。请告诉我这些矢量是如何计算的。
答案 0 :(得分:1)
使用from bokeh.io import output_notebook, show
from bokeh.plotting import figure
# create a new plot with default tools, using figure
p = figure(plot_width=400, plot_height=400)
# add a circle renderer with a size, color, and alpha
p.circle([1, 2, 3, 4, 5], [6, 7, 2, 4, 5], size=15, line_color="navy", fill_color="orange", fill_alpha=0.5)
show(p) # show the results
时,每个文本示例都有不“100个向量” - 有一个向量,其中包含100个标量维度(每个浮点值,如size=100
或0.513
)。
请注意,这些值表示100维空间中的点,并且各个维度/轴没有易于解释的含义。相反,只有单个向量之间的相对距离和相对方向对于基于文本的应用程序具有有用的意义,例如协助信息检索或自动分类。 / p>
文章'Distributed Representation of Sentences and Documents' by Le & Mikolov中描述了计算向量的方法。但是,它与'word2vec'算法密切相关,因此理解1st可能有所帮助,例如通过其first和second论文。如果这种风格的纸张不是您的风格,那么-1.301
或[word2vec tutorial]
或[how does word2vec work]
等查询应该找到更多随意的开头描述。