在计算unigram LM时如何用<s>和</s>来对待?

时间:2015-04-22 17:02:21

标签: nlp language-model

我是NLP的初学者,我很困惑如何使用<s></s>符号来计算unigram模型的计数?我应该算他们还是忽略?

1 个答案:

答案 0 :(得分:1)

如果我理解正确<s></s>意味着特殊(假)unigrams作为每个文本的第一个和最后一个unigrams(实际上,pre-first和after-last),那么他们不需要unigrams,因为任何字符串都包含这些unigrams,因此他们不提供其他信息。

这种特殊的unigrams在高阶n-gram的情况下非常有用:例如,它允许从单字词中提取hello 2个bigrams:<s> hello和{{1}或3个三元组:hello </s><s0> <s1> hello<s1> hello </s1>