应用错误收集

我有两个文档的语料库，并且我试图找出相对于第一个语料库而言更重要的单词。我的第一个主体也是第二个主体的子集，因此其中的每个单词也都在第二个主体中。是否有执行此操作的算法/方法？

我目前的方法是计算两个语料库的跨语料库/文档间出现频率的比率，并且从语料库2到语料库1的比率增加最大的单词相对来说最“重要” （我并不在乎一个语料库中的重要性，而只是相对于另一个语料库而言）。但是，比率可能无处不在，因此我正在寻找更好的方法（或一整套指标）。有什么建议吗？