假设以下玩具组(来自CSV文件,其中列名称是“键”,我只对我放入“数据”的某些行感兴趣):
keys = ['k1', 'k2', 'k3', 'k4']
data = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]
我想获得一个包含每列列表的字典,如下所示:
{'k1': [1, 5, 9, 13], 'k2': [2, 6, 10, 14], 'k3': [3, 7, 11, 15], 'k4': [4, 8,
12, 16]}
在我的代码中,我首先使用空列表初始化字典,然后迭代(按键的顺序)以附加列表中的每个项目。
my_dict = dict.fromkeys(keys, [])
for row in data:
for i, k in zip(row, keys):
my_dict[k].append(i)
但它不起作用。它构建了这本词典:
{'k3': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16], 'k2': [1, 2, 3,
4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16], 'k1': [1, 2, 3, 4, 5, 6, 7, 8,
9, 10, 11, 12, 13, 14, 15, 16], 'k4': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
13, 14, 15, 16]}
您可以看到所有元素都在所有列表中,而不是每个列表中只有四个元素。如果我在循环中打印i,k,它会执行正确的项目和键对。所以我想问题是当我在密钥k的列表中添加项目i时。
有谁知道为什么所有元素都被添加到所有列表中以及构建字典的正确方法是什么?
提前致谢
答案 0 :(得分:8)
>>> keys = ['k1', 'k2', 'k3', 'k4']
>>> data = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]
>>> print dict(zip(keys, zip(*data)))
{'k3': (3, 7, 11, 15), 'k2': (2, 6, 10, 14), 'k1': (1, 5, 9, 13), 'k4': (4, 8, 12, 16)}
如果你想要列表而不是数组中的元组:
>>> print dict(zip(keys, [list(i) for i in zip(*data)]))
如果你想使用你的版本,只需要进行字典理解,而不是fromkeys
:
my_dict = { k : [] for k in keys }
在您的情况下,您使用相同的值初始化my_dict
的问题:
>>> my_dict = dict.fromkeys(keys, [])
>>> my_dict
{'k3': [], 'k2': [], 'k1': [], 'k4': []}
>>> my_dict['k3'].append(1)
>>> my_dict
{'k3': [1], 'k2': [1], 'k1': [1], 'k4': [1]}
当你正确行事时(使用字典/列表理解):
>>> my_dict = dict((k, []) for k in keys )
>>> my_dict
{'k3': [], 'k2': [], 'k1': [], 'k4': []}
>>> my_dict['k3'].append(1)
>>> my_dict
{'k3': [1], 'k2': [], 'k1': [], 'k4': []}
答案 1 :(得分:7)
您遇到了问题explained in this answer:您的词典初始化时,为所有值重新提供了相同的列表对象。只需使用
dict(zip(keys, zip(*data)))
代替。这会将行列表转换为列列表,然后将键和列压缩在一起。
答案 2 :(得分:4)
我认为dict(zip(keys, map(list,zip(*data)) ))
应该做到这一点。
首先,我转置您的数据(zip(*data)
),但这会返回元组...因为您需要列表,我使用map来构建元组中的列表。然后我们再次使用zip来匹配列表中项目的键。例如(key1,list1), (key2,list2),...
。这正是字典构造函数所期望的,所以你是金色的。
另一种解决方案是使用collections.defaultdict
:
d=collections.defaultdict(list)
tdata=zip(*data) #transpose your data
for k,v in zip(keys,tdata):
d[k].extend(v)
当然,这会给你一个defaultdict而不是一个普通的,虽然它可以简单地改为常规的:d=dict(**d)
。
答案 3 :(得分:0)
这应该有效:
keys = ['k1', 'k2', 'k3', 'k4']
data = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]
mydict = {}
for k in keys:
b[k] = []
for l in data:
b[k].append(l[i])
i += 1
请注意,index()是一项昂贵的功能。拥有庞大的数据集时请勿使用它。在这种情况下增加一个变量。
编辑:不,不是!抱歉,只是片刻
编辑现在可行了!
答案 4 :(得分:0)
>>> keys = ['k1', 'k2', 'k3', 'k4']
>>> data = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]
>>> dict(zip(keys, zip(*data)))
{'k3': (3, 7, 11, 15), 'k2': (2, 6, 10, 14), 'k1': (1, 5, 9, 13), 'k4': (4, 8, 12, 16)}
如果你真的需要名单:
>>> dict(zip(keys, map(list, zip(*data))))
{'k3': [3, 7, 11, 15], 'k2': [2, 6, 10, 14], 'k1': [1, 5, 9, 13], 'k4': [4, 8, 12, 16]}
如果您使用的是python 2,则zip
和map
会返回list
。如果您使用的是大型数据集,则可以使用itertools.izip
和itertools.imap
提高效率,避免创建中间列表。