我是NLP的初学者,我很困惑如何使用<s>
和</s>
符号来计算unigram模型的计数?我应该算他们还是忽略?
答案 0 :(得分:1)
如果我理解正确<s>
和</s>
意味着特殊(假)unigrams作为每个文本的第一个和最后一个unigrams(实际上,pre-first和after-last),那么他们不需要unigrams,因为任何字符串都包含这些unigrams,因此他们不提供其他信息。
这种特殊的unigrams在高阶n-gram的情况下非常有用:例如,它允许从单字词中提取hello
2个bigrams:<s> hello
和{{1}或3个三元组:hello </s>
,<s0> <s1> hello
,<s1> hello </s1>
。