不同的<s> </秒> <UNK> kenlm和berkeleylm之间概率

时间:2019-04-19 11:55:58

标签: nlp n-gram kenlm

我使用kenlm和berkeleylm建立了ngram语言模型,但是它们给token带来了非常不同的可能性。

毛毯给:

ngram 1=164482
ngram 2=4355352
ngram 3=15629476

\1-grams:
-6.701107   <unk>   0
0   <s> -1.9270477
-1.8337007  </s>    0

而伯克利姆给出:

\data\
ngram 1=164481
ngram 2=4291478
ngram 3=15629476

\1-grams:
-99.000000  <s> -2.079426
-1.833699   </s>
and no <unk> token probability

我想知道为什么他们处理这些问题的方式不同,这些差异如何导致不同的结果?

0 个答案:

没有答案