我希望从Python中实现的Doc2Vec模型中获得准确性。 我在官方文档中看到有一种获取准确性的方法,它将参数作为文件。该输入文件的内容应该是什么?
我试图将4元组放在文档中,但我得到的所有模式都被错误分类。
答案 0 :(得分:0)
对Doc2Vec模型的准确性没有简单的衡量标准 - 您需要有一个根据您的语料库和项目目标定制的评估方法。
Word2Vec上的accuracy()
方法,也是由Doc2Vec继承的,仅使用单词向量进行非常狭窄的类比测试,因为在原始的word2vec论文和原始的Google word2vec中使用了相同的方法。 c工具包。您可以在Github mirror of the Google word2vec-toolkit中查看他们使用的测试文件questions-words.txt
和questions-phrases.txt
。
由于某些Doc2Vec模式会生成单词向量,您可以对这些Doc2Vec模型进行这种类比测试 - 但它根本不会检查文档向量,并且可以很好地检查这些单词类比的模型对于下游文档任务而言,这不是最好的。