用于文档标记的Doc2vec的参数值 - Gensim

时间:2017-12-13 18:13:05

标签: python gensim doc2vec

我的任务是将标签(描述性词语)分配给可用标签列表中的文档或帖子。我正在使用Gensim中提供的Doc2vec。我读到doc2vec可以用于文档标记。但我无法获得此任务的合适参数值。到目前为止,我已经通过更改名为' size'的参数值对其进行了测试。和'窗口'我得到的结果太过无意义,而且通过改变这些参数的值,我还没有发现任何结果趋势,即在某些值下,结果得到一点改善,并且在某些值下结果会下降。任何人都可以建议什么应该是适合此任务的参数值?如果我们有足够的训练数据,我发现' size'(如果特征向量定义大小)应该很大。但关于其余的参数,我不确定!

1 个答案:

答案 0 :(得分:0)

哪些参数最佳可能因质量而异。您的培训数据的大小,以及您的下游目标。 (没有一套最好的一切参数。)

从gensim默认值开始是合理的首次猜测,或者您看到其他人在类似的数据集/问题上成功使用过的其他值。

但实际上你需要进行实验,理想情况是通过创建基于某些保留测试集的自动评估,然后通过搜索对参数的许多小调整来优化Doc2Vec参数。范围/组合。