我正在创建一个程序,用于计算巨大文件中字符串的出现次数。为此我使用了python字典,字符串作为键,计数作为值。
该程序适用于最多10000个字符串的较小文件。但是当我在我的实际文件 ~2-3 mil 字符串上测试时,我的程序在达到50%标记时开始减速到原始速度的50%左右。
我怀疑这是因为内置字典并不是为了处理如此大量的数据而且会发生更多的冲突。我想知道是否有任何有效的方法来解决这个问题。我一直在寻找替代的hashmap实现,甚至是制作一个hashmaps列表(它进一步减慢了它)。
详细信息: