我有一个程序,我在文档中读取,然后将所有单词放入哈希删除重复并添加到该单词的频率。
例如:
KEY:VALUE: 狗2 猫4 大鼠1
现在我被告知需要计算每个单词的等级并打印这些统计数据。这究竟是什么意思?我需要看什么类型的数学?如果有人能指出我的文件,谈论可能有帮助的词级别。
由于
答案 0 :(得分:1)
如果删除重复,则不会有“频率”或至少它们都不是最多1,所以不要这样做。如果你正在谈论合并重复计数(我认为你是),那么我必须假设你所指的等级是文件中每个单词的出现次数。
如果你正确合并,你将拥有一个带有键值对的数组,对降序排列的值进行排序。
BTW - 这听起来像是一个家庭作业问题,如果是这样的话 - 寻找快速排序来对数值进行数组排序。这就是我要说的。 HTH。答案 1 :(得分:1)
排名只是排序,以便最频繁的单词具有排名1.看看Zipf's law我们如何期望单词在适当大的语料库中的频率排名。