将文档中的文本频率与语料库中的频率进行比较

时间:2010-12-07 01:39:06

标签: terminology relevance tf-idf significance

我想分析文档中的字母,双字母,单词等项目,并比较它们在我的文档中的频率,以及它们在大量文档中的频率。

这个想法是“if”,“and”,“the”等词在所有文档中都很常见,但是在本文档中,某些词语比在语料库中更常见。

这一定是非常标准的。这叫什么?以明显的方式做到这一点我总是在我的文档中出现小说的问题而不是在语料库评级中无限重要。这是如何处理的?

2 个答案:

答案 0 :(得分:1)

它属于线性分类器的标题,朴素贝叶斯分类器是最着名的形式(由于其在攻击现实分类问题时非常简单和稳健)。

答案 1 :(得分:1)

很有可能你已经检查了tf-idf 或来自okapi_bm25家庭的其他指标。

您也可以查看natural language processing toolkit nltk以获取一些现成的解决方案

更新: 至于新词,应该应用平滑:Good-Turing,拉普拉斯等。