计算word2vec模型的困惑度

时间:2018-12-13 15:54:50

标签: python nlp gensim word2vec language-model

我用50万个句子(约6万个)训练了Gensim W2V模型,我想计算困惑度。

  1. 这样做的最佳方法是什么?
  2. 对于6万个单词,我该如何检查适当的数据量?

谢谢

1 个答案:

答案 0 :(得分:2)

如果要计算困惑度,则必须首先获取损失。 在gensim.models.word2vec.Word2Vec构造函数上,传递compute_loss=True参数-这样,gensim将为您存储训练时的损失。 经过培训后,您可以调用get_latest_training_loss()方法来检索损失。

由于skip-gram模型的交叉熵损失中的损失,损失的幂为2将给您带来困惑。 (2 **损失)