我有大量(数百万)预定大小的字符串(几百个字符)。我感兴趣的一件事是计算这些字符串的频率表。毫不奇怪,这个过程需要很长时间才能完成测试。
我担心字典大小,但看起来除了物理可用内存之外,Python中没有理论上限。所以我可以在技术上创建一个大字典,不应该有任何必要的rehashing。这是正确的假设吗?
此外,切换到another hash function(可能输出比32位更长)比字符串的内置哈希在哈希计算和冲突方面有显着差异?
最后,我读了this interesting question,现在我想知道是否运行pypy或其他python优化建议会在这种情况下产生重大影响。
我对Python很陌生,但尚未获得所有的功能。如果你在答案中牢记这一点,我会很感激。