应用错误收集

时间：2015-10-16 17:33:58

标签： java nlp opennlp tf-idf

我的任务是从文本中提取关键字。我所做的是：

我正在使用tf-idf＆＃34;算法＆＃34;。对于idf部分我正在抓取维基百科文章并提取名词短语（opennlp）并将它们存储在数据库中。

因此，当我分析文本时，我只需要计算tf部分并从数据库中获取idf部分。

迄今为止的结果非常吸引人。我唯一的问题是 - ＆gt;由于我必须分析的文本与维基百科语料库不同，因此某些单词具有高tf但没有idf值（在wiki语料库中找不到）。但有时候这些话仍然非常重要（这个例子可能是一个尚未在维基百科上列出的新公司）。

如果在db（语料库）中找不到idf值，我该怎么做？（平均idf可能不是一个好主意）

答案 0 :(得分：0)

如何计算IDF？

如果您有类似IDF = log_e(# of documents / # of documents with term)的内容，则可以执行log_e(# of documents +1 / 1)。即将文件视为语料库中的新文件。