根据这个github教程:gensim / docs / notebooks / doc2vec-lee.ipynb 我应该得到大约96%的准确率。
以下是使用gensim 0.13.4在jupyter 4.3.1笔记本上的代码,全部来自Anaconda Navigator。
import gensim
import os
import collections
import smart_open
import random
# Set file names for train data
test_data_dir='{}'.format(os.sep).join \
([gensim.__path__[0],'test','test_data'])
lee_train_file = test_data_dir + os.sep + 'lee_background.cor'
def read_corpus(fname, tokens_only=False):
with smart_open.smart_open(fname, encoding="iso-8859-1") as f:
for i, line in enumerate(f):
if tokens_only:
yield gensim.utils.simple_preprocess(line)
else:
# For training data, add tags
yield gensim.models.doc2vec.TaggedDocument \
(gensim.utils.simple_preprocess(line), [i])
train_corpus = list(read_corpus(lee_train_file))
model = gensim.models.doc2vec.Doc2Vec(size=50, min_count=2, iter=10)
model.build_vocab(train_corpus)
model.train(train_corpus)
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
inferred_vector = model.infer_vector(train_corpus[doc_id].words)
sims = model.docvecs.most_similar([inferred_vector] \
, topn=len(model.docvecs))
rank = [docid for docid, sim in sims].index(doc_id)
ranks.append(rank)
second_ranks.append(sims[1])
collections.Counter(ranks)
在评估模型的教程中:
他们的输出是:
Counter({0: 292, 1: 8})
我正在
Counter({0: 31,
1: 24,
2: 16,
3: 19,
4: 16,
5: 8,
6: 8,
7: 10,
8: 7,
9: 10,
10: 12,
11: 12,
12: 5,
13: 9,
...
为什么我的准确度不高?
答案 0 :(得分:0)
感谢您发现它。由于随机初始化和不同的OS数值库,精确度和类似文档在如此微小的语料库上变化很大。我在教程中删除了对准确性的引用。
需要大量的语料库和数十小时的培训才能获得可重复的doc2vec结果。
Gensim邮件列表上的answered
答案 1 :(得分:0)
我很欣赏上面@Lev Konst的回应。正如他也提到的,这在Gensim邮件列表中得到了解答。
model = gensim.models.doc2vec.Doc2Vec( size = 55 ,min_count = 2, iter = 60 , hs = 1 , negative = 0 )产生:
Wall time: 12.5 s
Counter({0: 292, 1: 8})
Wall time: 12 s
Counter({0: 291, 1: 9})
Wall time: 16.4 s
Counter({0: 290, 1: 10})
Wall time: 20.6 s
Counter({0: 295, 1: 5})
Wall time: 21.3 s
Counter({0: 292, 1: 8})
Wall time: 20.6 s
Counter({0: 292, 1: 8})
Wall time: 16.7 s
Counter({0: 296, 1: 4})
Wall time: 15.4 s
Counter({0: 292, 1: 8})
Wall time: 15.3 s
Counter({0: 295, 1: 5})
Wall time: 14.8 s
Counter({0: 292, 1: 8})
似乎增加迭代和/或添加hs = 1,负= 0将产生更接近笔记本的结果。
hs = 1,负= 0似乎平均产生更好的结果。 如果只增加迭代次数,那么在某些运行中会有一些除0或1之外的等级。
然而,正如人们可以看到hs = 1,负数= 0,排名都在排名前两位。
但是,我已收到gensim google群组列表的通知,其数据集的大小低于最佳准确度且预计会有更多变化。
感谢约翰