如何导入带有句子的文档来训练doc2vec模型?

时间:2018-11-11 14:54:07

标签: python gensim cosine-similarity doc2vec sentence-similarity

我想得到句子之间的余弦相似度。我已经用gensim测试了doc2vec,并仅用代码中给出的少量句子对其进行了培训。但是我想使用文本文档训练我的模型,该文本文档每行有一个句子。如何使用带有句子的文档?

1 个答案:

答案 0 :(得分:0)

如果您的文档已经是文本文件的形式(每行一个句子),那么gensim(或其他地方)附带的许多示例都说明了如何处理这样的主体。

例如,在gensim目录中有一个与docs/notebooks捆绑在一起的入门Doc2Vec教程笔记本,您也可以在项目github存储库中在线查看该笔记本:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

其单元格(3)显示并且单元格(4)使用该函数逐行读取文件,并将其转换为模型所需的TaggedDocument文本。