比较词的重要性

时间:2019-03-28 20:24:48

标签: nlp tf-idf feature-selection

我有两个文档的语料库,并且我试图找出相对于第一个语料库而言更重要的单词。我的第一个主体也是第二个主体的子集,因此其中的每个单词也都在第二个主体中。是否有执行此操作的算法/方法?

我目前的方法是计算两个语料库的跨语料库/文档间出现频率的比率,并且从语料库2到语料库1的比率增加最大的单词相对来说最“重要” (我并不在乎一个语料库中的重要性,而只是相对于另一个语料库而言)。但是,比率可能无处不在,因此我正在寻找更好的方法(或一整套指标)。有什么建议吗?

0 个答案:

没有答案