我该如何运行这个gensim代码?我需要一些文本文件吗?

时间:2016-02-01 01:33:54

标签: python gensim

我昨天浏览了这个网站(http://rutumulkar.com/blog/2015/word2vec/),并且作者使用了文件text8-queen。在他的脚本中,我注意到她没有指定文件的位置,我想知道他是如何运行它的?我无法运行它?有没有办法运行这个文件?谢谢。

脚本如下:

import gensim.models
import time
time1 = time.time()

import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)


modelbase = gensim.models.Word2Vec()
sentences2 = gensim.models.word2vec.Sentences("text8-queen")
modelbase.build_vocab(sentences2)
modelbase.train(sentences2)
modelbase.save_word2vec_format("wordvectors/model-text8-queen-only")
modelbase.accuracy("questions-words.txt")

model = gensim.models.Word2Vec()
sentences = gensim.models.word2vec.Sentences("text8-rest")
model.build_vocab(sentences)
model.train(sentences)
model.save_word2vec_format("model-text8-rest")
model.accuracy("questions-words.txt")

sentences2 = gensim.models.word2vec.Sentences("text8-queen")
model.update_vocab(sentences2)
model.train(sentences2)
model.save_word2vec_format("wordvectors/model-text8-queen")
model.accuracy("questions-words.txt")

model1 = gensim.models.Word2Vec()
sentences = gensim.models.word2vec.Sentences("text8-all")
model1.build_vocab(sentences)
model1.train(sentences)
model1.save_word2vec_format("wordvectors/model-text8-all")
model1.accuracy("questions-words.txt")
print ("total time: %s" % (time.time() - time1))

我的问题在于:

sentences = gensim.models.word2vec.Sentences("text8-rest")

作者如何致电text8-resttext8-queen?我应该在哪里放置这些文本文件(text8-resttext8-queen)?我是否必须指定文本文件的位置或python是否能够检测到它?

1 个答案:

答案 0 :(得分:2)

如果您仔细阅读该教程,则说明

  

注意:text8-rest,text8-queen和text8-all可以在这里下载:http://rutumulkar.com/data/onlinew2v/text8-files.zip