索引应用程序的数据结构?

时间:2018-04-21 18:21:44

标签: hashcode

好的,所以我有这个极客的问题,这是必须有争议的。如果我有一个网页,想要计算重复多少个单词以及它的长度如何?例如:

" java是一个伟大的... bla bla bla" ......" java是... bla bla bla"

现在,我有

  7            …      3       
java           …     is   
 2                   2

"的java"重复两次,有7个指数。所以"是"在网页上重复两次并有3个索引。输出索引由两个由冒号分隔的整数组成,如 java is 7:2 冒号前的第一个数字代表单词的ID,第二个数字是单词的频率(均值,这个词在网络上出现了多少次[年龄。) 我的问题是,这里应该使用哪种数据结构?为什么? 我是哈希码的东西,因为我可以用它来计算重复单词的次数......但不确定它是否足够

0 个答案:

没有答案