应用错误收集

gensim docs/notebooks目录中有一组示例Jupyter（aka IPython）笔记本。您可以通过以下网址在线查看：

https://github.com/RaRe-Technologies/gensim/tree/develop/docs/notebooks

但是，如果您可以找到适合您当前工作环境的目录，那么它们将位于您的gensim安装目录中。

在其名称中包含doc2vec的人演示了Doc2Vec类的使用。最基本的介绍是在Lee＆＃39; Lee＆＃39;与gensim捆绑在一起的语料库，用于单元测试。（它实际上对于真正的Doc2Vec成功来说太小了，但是通过强制使用较小的模型和许多训练迭代，笔记本电脑几乎无法获得一致的结果。）请参阅：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

它包含一个关于推断新文本向量的部分：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

请注意，推理是在字符串标记列表上执行的，而不是原始字符串。并且这些令牌应该以与模型的原始训练数据相同的方式进行预处理/标记化，以使词汇表兼容。（默认忽略新文本中的任何未知单词。）

另请注意，特别是在短文本中，通常有助于为steps提供比infer_vector()可选alpha参数更大的默认值 - 比如50或200而不是默认值5 。提供一个起始{{1}}参数更像是训练默认值0.025而不是方法默认值0.1。

加载Doc2Vec模型并获取新句子的向量进行测试

1 个答案: