我希望我能够清楚地解释这个问题。我是一个python实验者(以防下面的查询显得天真)
假设我有一个表格的数据集:
a = ( ('309','308','308'), ('309','308','307'), ('308', '309','306', '304'))
让我将每个('309','308','308')
称为路径。
我想找到计数:
一个。 Count('309','308', <any word>)
湾Count('309',<any word>,'308')
以及所有可能的排列。
我正在考虑它的某种正则表达式,它将帮助我实现这种搜索。而且,我的路径数量达到了50000.
任何人都可以建议我如何在python中执行此类操作?我探索了trie,radix,但我不认为这会对我有所帮助。
谢谢, Sagar的
答案 0 :(得分:2)
您可以使用collections.Counter
执行此操作:
>>> from collections import Counter
>>> a = ( ('309','308','308'), ('309','308','307'), ('308', '309','306', '304'))
>>> Counter((x, y) for (x, y, *z) in a)
Counter({('309', '308'): 2, ('308', '309'): 1})
>>> Counter((x, z) for (x, y, z, *w) in a)
Counter({('308', '306'): 1, ('309', '308'): 1, ('309', '307'): 1})
我也在这里使用扩展元组解包,这在Python 3.x之前不存在,只有在你有长度不确定的元组时才需要它。在python 2.x中,您可以改为:
Counter((item[0], item[1]) for item in a)
但是,我不能说这会有多高效。我不相信它应该是坏的。
Counter
的语法类似dict
:
>>> count = Counter((x, y) for (x, y, *z) in a)
>>> count['309', '308']
2
编辑:您提到它们可能长度大于1,在这种情况下,您可能会遇到问题,因为如果它们短于所需长度,它们将无法解压缩。解决方案是更改生成器表达式以忽略任何不是所需格式:
Counter((item[0], item[1]) for item in a if len(item) >= 2)
E.g:
>>> a = ( ('309',), ('309','308','308'), ('309','308','307'), ('308', '309','306', '304'))
>>> Counter((x, y) for (x, y, *z) in a)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python3.2/collections.py", line 460, in __init__
self.update(iterable, **kwds)
File "/usr/lib/python3.2/collections.py", line 540, in update
_count_elements(self, iterable)
File "<stdin>", line 1, in <genexpr>
ValueError: need more than 1 value to unpack
>>> Counter((item[0], item[1]) for item in a)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python3.2/collections.py", line 460, in __init__
self.update(iterable, **kwds)
File "/usr/lib/python3.2/collections.py", line 540, in update
_count_elements(self, iterable)
File "<stdin>", line 1, in <genexpr>
IndexError: tuple index out of range
>>> Counter((item[0], item[1]) for item in a if len(item) >= 2)
Counter({('309', '308'): 2, ('308', '309'): 1})
如果需要可变长度计数,最简单的方法是使用列表切片:
start = 0
end = 2
Counter(item[start:end] for item in a if len(item) >= start+end)
当然,这只适用于连续运行,如果你想单独选择列,你还需要做更多的工作:
def pick(seq, indices):
return tuple([seq[i] for i in indices])
columns = [1, 3]
maximum = max(columns)
Counter(pick(item, columns) for item in a if len(item) > maximum)
答案 1 :(得分:2)
如果你想以CS风格的方式做到这一点,你应该看看tries。你需要稍加修改才能在每个子树的根上存储每个子树的大小,但这不应该太难。
答案 2 :(得分:0)
如果你是Python之前的2.7,你可以使用列表推导:
#Number of: ('309','308', <any word>)
>>> len([i[0] for i in a if i[0]=='309' and i[1]=='308'])
2
#Number of:('309',<any word>,'308')
>>> len([i[0] for i in a if i[0]=='309' and i[-1]=='308'])
1
使用列表理解似乎也比使用Counter
快一些,虽然元组解包很好,但它也会减慢速度。 defaultdict
可以更快地完成类似的事情:
from collections import Counter, defaultdict
a = []
for i in range(500000):
a.append(('309','308','308'))
def ww(a):
return Counter((item[0], item[1]) for item in a)
def xx(a):
return len([i[0] for i in a if i[0]=='309' and i[1]=='308'])
def yy(a):
g = defaultdict(int)
for i in a:
g[(i[0],i[1])] += 1
return g
def zz(a):
return Counter((i, j) for (i, j, *k) in a)
from timeit import timeit
print('Counter..:',timeit("ww(a)", "from __main__ import ww, a", number=100))
print('compreh..:',timeit("xx(a)", "from __main__ import xx, a", number=100))
print('defdict..:',timeit("yy(a)", "from __main__ import yy, a", number=100))
print('Count+un.:',timeit("zz(a)", "from __main__ import zz, a", number=100))
#output:
Counter..: 8.411258935928345
compreh..: 2.8653810024261475
defdict..: 4.256785154342651
Count+un.: 18.45333218574524