答案 0 :(得分:0)
如果您的文档已经是文本文件的形式(每行一个句子),那么gensim(或其他地方)附带的许多示例都说明了如何处理这样的主体。
例如,在gensim
目录中有一个与docs/notebooks
捆绑在一起的入门Doc2Vec教程笔记本,您也可以在项目github存储库中在线查看该笔记本:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb
其单元格(3)显示并且单元格(4)使用该函数逐行读取文件,并将其转换为模型所需的TaggedDocument
文本。