标签: nlp tf-idf feature-selection
我有两个文档的语料库,并且我试图找出相对于第一个语料库而言更重要的单词。我的第一个主体也是第二个主体的子集,因此其中的每个单词也都在第二个主体中。是否有执行此操作的算法/方法?
我目前的方法是计算两个语料库的跨语料库/文档间出现频率的比率,并且从语料库2到语料库1的比率增加最大的单词相对来说最“重要” (我并不在乎一个语料库中的重要性,而只是相对于另一个语料库而言)。但是,比率可能无处不在,因此我正在寻找更好的方法(或一整套指标)。有什么建议吗?