我的任务是从文本中提取关键字。我所做的是:
我正在使用tf-idf"算法"。对于idf部分我正在抓取维基百科文章并提取名词短语(opennlp)并将它们存储在数据库中。
因此,当我分析文本时,我只需要计算tf部分并从数据库中获取idf部分。
迄今为止的结果非常吸引人。我唯一的问题是 - >由于我必须分析的文本与维基百科语料库不同,因此某些单词具有高tf但没有idf值(在wiki语料库中找不到)。但有时候这些话仍然非常重要(这个例子可能是一个尚未在维基百科上列出的新公司)。
如果在db(语料库)中找不到idf值,我该怎么做? (平均idf可能不是一个好主意)
答案 0 :(得分:0)
如何计算IDF?
如果您有类似IDF = log_e(# of documents / # of documents with term)
的内容,则可以执行log_e(# of documents +1 / 1)
。即将文件视为语料库中的新文件。