我有一个A
类,其中包含多个字段a
,b
,c
。我有一个此类A
的对象的列表。现在,我想提取3个列表,首先包含所有对象中字段a
的值,第二个列表包含字段b
的值和第三个c
的值。
我找到了以下答案
This答案说我可以使用以下列表理解
a_list=[obj.a for obj in obj_list]
This回答说要使用Generator Expressions来节省内存
a_list=(obj.a for obj in obj_list)
现在,我的问题是,当我想提取多个属性时可以使用吗?如果我按如下方式写三行
a_list=(obj.a for obj in obj_list)
b_list=(obj.b for obj in obj_list)
c_list=(obj.c for obj in obj_list)
我将遍历整个列表3次。会不会很昂贵?在这种情况下,使用for循环更好吗?
for obj in obj_list:
a_list.append(obj.a)
b_list.append(obj.b)
c_list.append(obj.c)
哪个更快?这是一个更好的方法。还有其他更好的优化方法吗? 谢谢!
答案 0 :(得分:3)
只要您认为“ X 快于 Y ”,就需要进行测量。
您可以设计一种方法,使您的列表不三次通过。
但是,由于这种“方式”可能会使整个代码更加复杂且计算量大,因此可能仍不会更快。
不遍历对象列表的一种方法是像这样利用zip和map:
class O:
def __init__(self,a,b,c):
self.a=a
self.b=b
self.c=c
def __str__(self):
return f"#{self.a} {self.b} {self.c}#"
def __repr__(self): return str(self)
obj = [O(a,a**4,1.0/a) for a in range(2,20)]
print(obj)
# use a generator to make 3-tuples of your classes attributes and decompose
# those into zip which builds your lists
a,b,c = map(list, zip( *((e.a,e.b,e.c) for e in obj)) )
print(a,b,c )
对象:
[#2 16 0.5#, #3 81 0.3333333333333333#, #4 256 0.25#, #5 625 0.2#,
#6 1296 0.16666666666666666#, #7 2401 0.14285714285714285#, #8 4096 0.125#,
#9 6561 0.1111111111111111#, #10 10000 0.1#, #11 14641 0.09090909090909091#,
#12 20736 0.08333333333333333#, #13 28561 0.07692307692307693#,
#14 38416 0.07142857142857142#, #15 50625 0.06666666666666667#,
#16 65536 0.0625#, #17 83521 0.058823529411764705#,
#18 104976 0.05555555555555555#, #19 130321 0.05263157894736842#]
结果:
[2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
[16, 81, 256, 625, 1296, 2401, 4096, 6561, 10000, 14641, 20736, 28561,
38416, 50625, 65536, 83521, 104976, 130321]
[0.5, 0.3333333333333333, 0.25, 0.2, 0.16666666666666666, 0.14285714285714285,
0.125, 0.1111111111111111, 0.1, 0.09090909090909091, 0.08333333333333333,
0.07692307692307693, 0.07142857142857142, 0.06666666666666667, 0.0625,
0.058823529411764705, 0.05555555555555555, 0.05263157894736842]
您仍然必须测量是否可以更快地遍历对象列表。
即使18个元素的速度变慢,200万个元素的速度也会变快。因此,使用情况在很大程度上取决于环境。
时间:
s = """
class O:
def __init__(self,a,b,c):
self.a=a
self.b=b
self.c=c
def __str__(self):
return f"#{self.a} {self.b} {self.c}#"
def __repr__(self): return str(self)
# changed to ** 2 instead of 4
# changed to 200 elements
obj = [O(a,a**2,1.0/a) for a in range(2,200)]
"""
code1="""
a,b,c = map(list,zip( *((e.a,e.b,e.c) for e in obj)) )
"""
code2="""
a1 = [e.a for e in obj]
b1 = [e.b for e in obj]
c1 = [e.c for e in obj]
"""
from timeit import timeit
print(timeit(code1,setup=s,number=100000))
print(timeit(code2,setup=s,number=100000))
结果:
7.969175090000135 # map + zip
5.124133489000087 # simple loop