我正在寻找一种方法,在给定一组包含单词的文档的情况下,查询文档中最常见的相邻单词和/或最常见的单词。
例如,我想要一个接受'windows'并返回包含'windows'的文档中最常见的单词列表的查询,例如'microsoft'或'doors'。
我想找到相邻的单词,但我也发现在我的申请中可能需要最终知道文档中最常见的单词。一个例子可能是'linux'或'效率'。这些单词可能与“窗口”不相邻,但它们可能位于同一文档中。
我发现this问题可以帮助我解决问题,但这只会让我得到所有文档或特定文档中最常用的单词,而不是一组文档。