KenLM困惑的怪异

时间:2014-12-18 18:01:41

标签: nlp language-model

我有96个文件,每个文件包含~10K行英文文本(标记化,下标)。如果我遍历文件(基本上用k =#文件进行k-fold交叉验证)并为95构建一个LM(使用bin / lmplz)并在保留的文件上运行bin / query,我看到一个PPL (包括OOV)每次1.0。但是如果我针对使用所有96个文件构建的LM运行文件(因此构建LM时包含测试文档),我得到的PPL为27.8。

我对SRILM的经验比KenLM更多,但我从来没有看到过1的困惑得分。有些事情感觉不对。即使我接受并将其归因于其他训练数据中出现的测试文档的句子,也无法解释为什么当我确保测试数据包含在训练数据中时,我得到更高的分数。发生了什么事?

=============================

这也似乎很奇怪:

Perplexity including OOVs:  1
Perplexity excluding OOVs:  0.795685
OOVs:   0

0 个答案:

没有答案