在python

时间:2016-03-09 09:41:14

标签: python string hash

我有大量(数百万)预定大小的字符串(几百个字符)。我感兴趣的一件事是计算这些字符串的频率表。毫不奇怪,这个过程需要很长时间才能完成测试。

我担心字典大小,但看起来除了物理可用内存之外,Python中没有理论上限。所以我可以在技术上创建一个大字典,不应该有任何必要的rehashing。这是正确的假设吗?

此外,切换到another hash function(可能输出比32位更长)比字符串的内置哈希在哈希计算和冲突方面有显着差异?

最后,我读了this interesting question,现在我想知道是否运行pypy或其他python优化建议会在这种情况下产生重大影响。

我对Python很陌生,但尚未获得所有的功能。如果你在答案中牢记这一点,我会很感激。

0 个答案:

没有答案