存储文档和计数器中出现的单词的最佳数据结构是什么?

时间:2011-01-27 09:01:34

标签: data-structures stream big-o filestream

假设我有一个文档语料库,我想逐个阅读并将它们存储在数据结构中。结构可能是一个东西的列表。那个类会定义一个单独的文档。在该类中,我将不得不使用数据结构来存储每个文档的内容,应该是什么?此外,如果我想计算单词的出现次数并检索每个文档中最常用的单词,我是否必须使用允许我及时执行此操作的数据结构< O(n)会顺序检查所有内容吗?

1 个答案:

答案 0 :(得分:2)

使用associative array,也称为地图或字典,因为不同的编程语言对同一数据结构使用不同的术语。

每个输入键都是一个单词,计数器将是条目的值。例如

{
  'on' -> 15,
  'and' -> 43,
  'I' -> 157,
  'confluence' -> 1,
  'dear' -> 2
}