我用50万个句子(约6万个)训练了Gensim W2V模型,我想计算困惑度。
谢谢
答案 0 :(得分:2)
如果要计算困惑度,则必须首先获取损失。
在gensim.models.word2vec.Word2Vec
构造函数上,传递compute_loss=True
参数-这样,gensim
将为您存储训练时的损失。
经过培训后,您可以调用get_latest_training_loss()
方法来检索损失。
由于skip-gram模型的交叉熵损失中的损失,损失的幂为2将给您带来困惑。 (2 **损失)