我有96个文件,每个文件包含~10K行英文文本(标记化,下标)。如果我遍历文件(基本上用k =#文件进行k-fold交叉验证)并为95构建一个LM(使用bin / lmplz)并在保留的文件上运行bin / query,我看到一个PPL (包括OOV)每次1.0。但是如果我针对使用所有96个文件构建的LM运行文件(因此构建LM时包含测试文档),我得到的PPL为27.8。
我对SRILM的经验比KenLM更多,但我从来没有看到过1的困惑得分。有些事情感觉不对。即使我接受并将其归因于其他训练数据中出现的测试文档的句子,也无法解释为什么当我确保测试数据包含在训练数据中时,我得到更高的分数。发生了什么事?
=============================
这也似乎很奇怪:Perplexity including OOVs: 1
Perplexity excluding OOVs: 0.795685
OOVs: 0