在python中,我正在开发一个项目,该项目经常涉及计算具有某些给定属性的对象有多少匹配特定条件。我可以看到如何使用元组或对象或数据库的列表来执行此操作,但我想知道以这种方式过滤对象列表是“明显的pythonic”方法。
我想到的选项如下:
list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len(filter(object_type.property2_test(property2),
filter(object_type.property1_getter, list_of_all)
list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
if candidate.property1 and candidate.property2 == property2])
list_of_all = [(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
if candidate[1] and candidate[2] == property2])
db_cursor.execute("""CREATE TABLE table_of_all
(property0 INTEGER, property1 INTEGER, ...)""")
number_of_matches = len(db_cursor.execute("""SELECT 1 FROM table_of_all
WHERE property1 = 1 AND property2 = ?""", (property2,)).fetchall())
在我的代码的上下文中使用最后两个,timeit告诉我,存在如此显着的差异。
$ python -m timeit -n 100 'import with_db' | tail -n1
100 loops, best of 3: 0.751 usec per loop
$ python -m timeit -n 100 'import with_list' | tail -n1
100 loops, best of 3: 0.761 usec per loop
每次都在0.751和0.811之间的值。
通常,我的用例包含几百个(用于测试目的),最多包含40000个对象。它们用于模拟循环(没有等待的I / O)。每个循环迭代包含大约50个这样的查找,可能找到一个属性的最大值,以及两个对象的更新,但如果有其他用例存在最佳解决方案,那也会很有趣。
对于这类任务是否有明显更好的解决方案,或者是否存在一种独特的任务类型,其中任何一种解决方案都会产生影响?
答案 0 :(得分:5)
您可以让数据库进行计数:
SELECT COUNT(*) FROM table_of_all
WHERE property1 = 1 AND property2 = ?
在Python中,您可以使用sum
和生成器表达式来避免创建中间列表:
sum(1 for candidate in list_of_all
if candidate.property1 and candidate.property2 == property2)