是否有预先训练的doc2vec模型?

时间:2018-07-02 09:25:08

标签: gensim doc2vec

是否存在像Wikipedia或类似的具有大数据集的经过预先训练的doc2vec模型?

2 个答案:

答案 0 :(得分:4)

是的! 我可以在此link

上找到两个经过预先训练的doc2vec模型

但仍然找不到在推文上训练过的任何预先训练的doc2vec模型

答案 1 :(得分:3)

我不知道有什么好人。 this project有一个链接,但是:

  • 它基于旧版gensim的自定义派生,因此不会在最新代码中加载
  • 目前尚不清楚使用什么参数或数据进行训练,相关论文可能对参数的效果做出了不明智的选择
  • 对于Wikipedia文章(超过400万)或文章段落(数以千万计),或者大量的词向量,似乎没有合适的大小来包含实际的文档向量,所以目前还不清楚什么被丢弃了

虽然需要很长时间并且需要大量的工作RAM,但是有一个Jupyter笔记本演示了gensim中包含的Wikipedia的Doc2Vec模型的创建:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

因此,我建议您修复尝试中的错误。 (而且,如果您成功创建了一个模型,并想为他人编写文档,则可以将其上传到其他地方以供重复使用。)