" java是一个伟大的... bla bla bla" ......" java是... bla bla bla"
现在,我有
7 … 3
java … is
2 2
"的java"重复两次,有7个指数。所以"是"在网页上重复两次并有3个索引。输出索引由两个由冒号分隔的整数组成,如 java is 7:2 冒号前的第一个数字代表单词的ID,第二个数字是单词的频率(均值,这个词在网络上出现了多少次[年龄。) 我的问题是,这里应该使用哪种数据结构?为什么? 我是哈希码的东西,因为我可以用它来计算重复单词的次数......但不确定它是否足够