在SO中回答某个特定问题时,我偶然发现了一个我无法解释的特殊问题。很遗憾,前两个Google搜索页面返回了一个SO页面,这也没有帮助。
问题代码
>>> somedata=[random.randint(1,1000) for i in xrange(1,10000)]
>>> somehash=collections.defaultdict(int)
>>> for d in somedata:
somehash[d]+=1
>>> maxkey=0
>>> for k,v in somehash.iteritems():
if somehash[maxkey] > v:
maxkey=k
Traceback (most recent call last):
File "<pyshell#700>", line 1, in <module>
for k,v in somehash.iteritems():
RuntimeError: dictionary changed size during iteration
>>> for k,v in somehash.iteritems():
if somehash[maxkey] > v:
maxkey=k
>>>
由于一些奇怪的原因,我第一次迭代字典时,Python正在创建发脾气,但随后的执行很好,你可以在示例中看到,我第一次迭代字典,它给了运行时错误,但下一次它没有抱怨。
任何想法会出现什么问题?
以防万一(
)>>> sys.version_info
sys.version_info(major=2, minor=7, micro=0, releaselevel='final', serial=0)
>>> sys.version
'2.7 (r27:82525, Jul 4 2010, 09:01:59) [MSC v.1500 32 bit (Intel)]'
OS: Microsoft Windows [Version 6.1.7601] (Windows 7)
答案 0 :(得分:11)
在迭代字典时添加或删除字典是错误的。由于somehash
是defaultdict
,即使是行中的只读访问
if somehash[maxkey] > k:
可能会添加一个新密钥 - 导致您遇到错误。
答案 1 :(得分:3)
正如Sven所解释的那样,您遇到的错误是由于defaultdict
的工作方式。在defaultdict
中执行查找时,如果密钥尚不存在,则检索默认值(因此名称),并将密钥添加到字典中(使用默认值)。这是RuntimeError
。
您可以执行以下操作以避免此问题:
for k, v in somehash.items():
if somehash[maxkey] > v:
maxkey = k
主要区别在于somehash.items()
返回(键,值)元组的列表,因此您实际上是迭代该列表而不是somehash
本身。 .keys()
与.iterkeys()
相同。
答案 2 :(得分:0)
您正在生成9999(有些)随机整数 1到1000 ,存储在somedata
中,用作somehash
的密钥,用于存储某些数据中的数字。
作为maxkey=0
,该密钥永远不会存在。当您使用defaultdict时, when each key is encountered for the first time, an entry is automatically created using the default_factory
function which returns an empty list ,从而在迭代过程中以* FastTurtle *已经指出的方式正确抛出错误。
使用get
方法安全地检索项目。
import random
import collections
somedata=[random.randint(1,1000) for i in xrange(1,10000)]
somehash=collections.defaultdict(int)
for d in somedata:
somehash[d]+=1
maxkey=0
for k,v in somehash.iteritems():
if somehash.get(maxkey) > v:
maxkey=k
print k,v
我看到你正在使用Python 2.7,它有一个名为Counter
的新集合类,用于计算可哈希的对象。使用Counter
应该比上面的代码更快,并将代码缩减为:
somedata=[random.randint(1,1000) for i in xrange(1,10000)]
somehash=collections.Counter(somedata)