应用错误收集

在计算unigram LM时如何用<s>和</s>来对待？

时间：2015-04-22 17:02:21

标签： nlp language-model

我是NLP的初学者，我很困惑如何使用<s>和</s>符号来计算unigram模型的计数？我应该算他们还是忽略？

1 个答案:

答案 0 :(得分：1)

如果我理解正确<s>和</s>意味着特殊（假）unigrams作为每个文本的第一个和最后一个unigrams（实际上，pre-first和after-last），那么他们不需要unigrams，因为任何字符串都包含这些unigrams，因此他们不提供其他信息。

这种特殊的unigrams在高阶n-gram的情况下非常有用：例如，它允许从单字词中提取hello 2个bigrams：<s> hello和{{1}或3个三元组：hello </s>，<s0> <s1> hello，<s1> hello </s1>。