对于语言识别,Unigram比Ngram产生更好的结果

时间:2020-03-24 03:08:02

标签: nlp naivebayes n-gram categorization

我有一个学校项目,其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语,葡萄牙语,英语,巴斯克语,加利西亚语和加泰罗尼亚语的推文。该任务是使用单字组,双字组和三字组实现语言识别模型,并分析每种模型的效率。

我了解ngram的概念,并且了解语言有些相似(因此这不是一项琐碎的任务),但是我不明白的是,我得到的unigram效果要比bigrams和我好二元组比三元组获得更好的结果。

我无法理解这是怎么可能的,因为我期望二元组和三元组的效率更高。

您能帮助我阐明为什么会发生这种情况吗?

谢谢您的时间。

1 个答案:

答案 0 :(得分:2)

简短答案:高阶n-gram有数据稀疏性问题。 (我们倾向于用平滑的方法来解决这个问题。)这会使它们的信息量减少,因为看不见的东西太多了,因此如果没有更多的数据,则很难学习真正的数据分布。

您注意到,较小的平滑量比较高的平滑量具有更好的性能。这是因为较低的那些可以让您 more 收听数据。平滑就像是“先验信念”,但是您得到的计数代表实际数据。如果您进行过多平滑处理,那么现在(几乎)您将完全忽略您的数据!任何字母组合的可能性均等。

相关问题