nlp - 对于语言识别，Unigram比Ngram产生更好的结果

时间：2020-03-24 03:08:02

标签： nlp naivebayes n-gram categorization

我有一个学校项目，其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语，葡萄牙语，英语，巴斯克语，加利西亚语和加泰罗尼亚语的推文。该任务是使用单字组，双字组和三字组实现语言识别模型，并分析每种模型的效率。

我了解ngram的概念，并且了解语言有些相似（因此这不是一项琐碎的任务），但是我不明白的是，我得到的unigram效果要比bigrams和我好二元组比三元组获得更好的结果。

我无法理解这是怎么可能的，因为我期望二元组和三元组的效率更高。

您能帮助我阐明为什么会发生这种情况吗？

谢谢您的时间。

答案 0 :(得分：2)

简短答案：高阶n-gram有数据稀疏性问题。（我们倾向于用平滑的方法来解决这个问题。）这会使它们的信息量减少，因为看不见的东西太多了，因此如果没有更多的数据，则很难学习真正的数据分布。

您注意到，较小的平滑量比较高的平滑量具有更好的性能。这是因为较低的那些可以让您 more 收听数据。平滑就像是“先验信念”，但是您得到的计数代表实际数据。如果您进行过多平滑处理，那么现在（几乎）您将完全忽略您的数据！任何字母组合的可能性均等。