在N-Gram模型中应该计算多少克?

时间:2014-11-18 18:09:55

标签: nlp probability n-gram

我使用N-Grams模型进行NLP概率计算。什么是计算的实验克数。 (三克或四克或五或......等)因为在我的项目介绍中他们会问我为什么要停止这个级别(这克)。我找不到任何关于N的文章应该是哪个号码。我可以提供什么样的答案?

1 个答案:

答案 0 :(得分:2)

如果您需要某种数字,一种方法是使用 n -gram模型简单地测量系统的性能(例如,信息检索任务的F1分数),然后< em> n + 1-gram, n + 2-gram等,直到您的分数不再获得统计上显着的改善。当然,那么你仍然需要随意选择p值作为重要性...但是,幸运的是,你可以使用0.05作为 p - 值并且坚信“#34;大多数人们就这样做了#34;。

另一种方法是使用金标准注释计算每个语言模型的perplexity