需要计算文档中每个术语的频率

时间:2011-03-14 15:54:54

标签: java information-retrieval

我需要计算文档中所有术语的频率。我怎样才能做到这一点 ? 我不要求代码。我只是在寻求指导。实际上我在文档和查询之间进行一些相似度计算。我已经计算了查询的术语频率。 但我不知道如何计算文档中每个单词的tern频率。谁能指导我?感谢您的关注。

3 个答案:

答案 0 :(得分:1)

您可以使用HashMap,其中key是您的术语和值 - 它的频率。每当你看到你的术语,你就会增加价值。文件完成后,你就有了你的号码。

答案 1 :(得分:1)

是的,使用HashMap保存值并浏览文件,您可以使用Scanner

答案 2 :(得分:0)

在Java中,你绝对应该留在HashMap<String, Integer>。术语将是HashMap键,术语频率是值。