Idf得分为一个未知单词?

时间:2015-10-16 17:33:58

标签: java nlp opennlp tf-idf

我的任务是从文本中提取关键字。我所做的是:

我正在使用tf-idf"算法"。对于idf部分我正在抓取维基百科文章并提取名词短语(opennlp)并将它们存储在数据库中。

因此,当我分析文本时,我只需要计算tf部分并从数据库中获取idf部分。

迄今为止的结果非常吸引人。我唯一的问题是 - >由于我必须分析的文本与维基百科语料库不同,因此某些单词具有高tf但没有idf值(在wiki语料库中找不到)。但有时候这些话仍然非常重要(这个例子可能是一个尚未在维基百科上列出的新公司)。

如果在db(语料库)中找不到idf值,我该怎么做? (平均idf可能不是一个好主意)

1 个答案:

答案 0 :(得分:0)

如何计算IDF?

如果您有类似IDF = log_e(# of documents / # of documents with term)的内容,则可以执行log_e(# of documents +1 / 1)。即将文件视为语料库中的新文件。