应用错误收集

在Python

时间：2017-01-18 08:44:15

标签： python word2vec

我希望从Python中实现的Doc2Vec模型中获得准确性。我在官方文档中看到有一种获取准确性的方法，它将参数作为文件。该输入文件的内容应该是什么？

我试图将4元组放在文档中，但我得到的所有模式都被错误分类。

1 个答案:

答案 0 :(得分：0)

对Doc2Vec模型的准确性没有简单的衡量标准 - 您需要有一个根据您的语料库和项目目标定制的评估方法。

Word2Vec上的accuracy()方法，也是由Doc2Vec继承的，仅使用单词向量进行非常狭窄的类比测试，因为在原始的word2vec论文和原始的Google word2vec中使用了相同的方法。 c工具包。您可以在Github mirror of the Google word2vec-toolkit中查看他们使用的测试文件questions-words.txt和questions-phrases.txt。

由于某些Doc2Vec模式会生成单词向量，您可以对这些Doc2Vec模型进行这种类比测试 - 但它根本不会检查文档向量，并且可以很好地检查这些单词类比的模型对于下游文档任务而言，这不是最好的。