在同一令牌下对未知单词进行分组的逻辑是什么,<script type="text/javascript">
function cnt(text) {
var a = text.value;
var b = "character left.";
text.parentNode.getElementsByTagName('span')[0].innerHTML = 100 - a.length + " " + b;
}
</script>
还包括概率较小的单词?
如果<UNK>
集的大小增加,是否会为一些罕见的单词指定高概率?
如果所有<UNK>
单词在某种意义上都属于同一个类,这可能会有效,例如,John,Tim,Sam这样的专有名词都可以将彼此的概率用作双克“Hello John,你好Tim,Hello Sam“同样可能。但如果情况并非如此,这种方法会不会遇到问题?
答案 0 :(得分:1)
将罕见字词映射到<UNK>
只是意味着我们删除这些字词并将其替换为训练数据中的标记<UNK>
。因此,我们的模型不知道任何罕见的词。这是一种粗略的平滑形式,因为模型假设令牌<UNK>
永远不会真正出现在真实数据中,或者更好,但它完全忽略了这些n-gram。
平滑试图解决的问题是数据稀疏性。这种技术可能是处理它的最简单方法。但是,我们可以在评论中显示@alvas显示better。