N-Gram建模中的未知单词

时间:2017-05-10 06:43:22

标签: nlp n-gram smoothing

在同一令牌下对未知单词进行分组的逻辑是什么,<script type="text/javascript"> function cnt(text) { var a = text.value; var b = "character left."; text.parentNode.getElementsByTagName('span')[0].innerHTML = 100 - a.length + " " + b; } </script> 还包括概率较小的单词?

如果<UNK>集的大小增加,是否会为一些罕见的单词指定高概率?

如果所有<UNK>单词在某种意义上都属于同一个类,这可能会有效,例如,John,Tim,Sam这样的专有名词都可以将彼此的概率用作双克“Hello John,你好Tim,Hello Sam“同样可能。但如果情况并非如此,这种方法会不会遇到问题?

1 个答案:

答案 0 :(得分:1)

将罕见字词映射到<UNK>只是意味着我们删除这些字词并将其替换为训练数据中的标记<UNK>。因此,我们的模型不知道任何罕见的词。这是一种粗略的平滑形式,因为模型假设令牌<UNK>永远不会真正出现在真实数据中,或者更好,但它完全忽略了这些n-gram。

平滑试图解决的问题是数据稀疏性。这种技术可能是处理它的最简单方法。但是,我们可以在评论中显示@alvas显示better