我有一个包含4000个不同名字的静态列表:所以列表的长度很大(4000),但每个字符串大约有4到12个字符(它们是名称)。
然后,我有一个从数据库中检索到10000个字符串的动态列表:这些字符串可能有任意长度。
我需要为10000个字符串中的每一个输出该字符串是否包含4000个名称中的一个,如果是,则输出哪一个。如果它包含多个名称,我只需要其中一个(即第一个)。此外,它不太可能找到这样的名称,所以10000中的10个可能只包含一个名称。
到目前为止我的代码:
names # list of 4000 short static names
fields # list of 10000 retrieved strings
def findit(element):
for name in names:
if name in element:
return name
return None
output = [findit(element) for element in fields]
这当然是有效的。然而,它完全是缓慢的,因为它不太可能找到一个名称,因为我测试的是子串而不是相等(即我不能使用bisect或其他基于排序的索引技术)。它几乎所有时间都完全扫描所有名单。所以基本上,它执行大约10000 x 4000 = 4,000万""比较。
是否有优化此类搜索的算法?
答案 0 :(得分:3)
您可以考虑将名单列表转换为一个正则表达式。以这个小名单为例:
names = ['AARON',
'ABDUL',
'ABE',
'ABEL',
'ABRAHAM',
'ABRAM',
'ADALBERTO',
'ADAM',
'ADAN',
'ADOLFO',
'ADOLPH',
'ADRIAN',
]
可以使用以下正则表达式表示:
\b(?:AARON|ABDUL|ABE|ABEL|ABRAHAM|ABRAM|ADALBERTO|ADAM|ADAN|ADOLFO|ADOLPH|ADRIAN)\b
但这不会非常有效。像树一样构建的正则表达式可以更好地工作:
\b(?:A(?:B(?:E(?:|L)|RA(?:M|HAM)|DUL)|D(?:A(?:M|N|LBERTO)|OL(?:FO|PH)|RIAN)|ARON))\b
然后,您可以自动生成此正则表达式 - 可能首先从名称列表中创建dict
- 树结构,然后将该树转换为正则表达式。对于上面的示例,该中间树将如下所示:
{
'A': {
'A': {
'R': {
'O': {
'N': {
'': {}
}
}
}
},
'B': {
'D': {
'U': {
'L': {
'': {}
}
}
},
'E': {
'': {},
'L': {
'': {}
}
},
... etc
...可以选择简化为:
{
'A': {
'ARON': {
'': {}
}
'B': {
'DUL': {
'': {}
},
'E': {
'': {},
'L': {
'': {}
}
},
'RA': {
'HAM': {
'': {}
},
'M': {
'': {}
}
}
},
... etc
以下是建议执行此操作的代码:
import re
def addToTree(tree, name):
if len(name) == 0:
return
if name[0] in tree.keys():
addToTree(tree[name[0]], name[1:])
else:
for letter in name:
tree[letter] = {}
tree = tree[letter]
tree[''] = {}
# Optional improvement of the tree: it combines several consecutive letters into
# one key if there are no alternatives possible
def simplifyTree(tree):
repeat = True
while repeat:
repeat = False
for key, subtree in list(tree.items()):
if key != '' and len(subtree) == 1 and '' not in subtree.keys():
for letter, subsubtree in subtree.items():
tree[key + letter] = subsubtree
del tree[key]
repeat = True
for key, subtree in tree.items():
if key != '':
simplifyTree(subtree)
def treeToRegExp(tree):
regexp = [re.escape(key) + treeToRegExp(subtree) for key, subtree in tree.items()]
regexp = '|'.join(regexp)
return '' if regexp == '' else '(?:' + regexp + ')'
def listToRegExp(names):
tree = {}
for name in names:
addToTree(tree, name[:])
simplifyTree(tree)
return re.compile(r'\b' + treeToRegExp(tree) + r'\b', re.I)
# Demo
names = ['AARON',
'ABDUL',
'ABE',
'ABEL',
'ABRAHAM',
'ABRAM',
'ADALBERTO',
'ADAM',
'ADAN',
'ADOLFO',
'ADOLPH',
'ADRIAN',
]
fields = [
'This is Aaron speaking',
'Is Abex a name?',
'Where did Abraham get the mustard from?'
]
regexp = listToRegExp(names)
# get the search result for each field, and link it with the index of the field
results = [[i, regexp.search(field)] for i, field in enumerate(fields)]
# remove non-matches from the results
results = [[i, match.group(0)] for [i, match] in results if match]
# print results
print(results)
上查看它
答案 1 :(得分:0)
我认为这可能会更快,如果您要使用set()
输入并只检查集合之间的交集:
names = ['AARON',
'ABDUL',
'ABE',
'ABEL',
'ABRAHAM',
'ABRAM',
'ADALBERTO',
'ADAM',
'ADAN',
'ADOLFO',
'ADOLPH',
'ADRIAN',
]
search = {'BE', 'LFO', 'AB'}
def get_all_substrings(input_string):
length = len(input_string)
return {input_string[i:j+1] for i in range(length) for j in xrange(i,length)}
names_subs = {name: get_all_substrings(name) for name in names}
result = [name for name, sub in names_subs.items() if bool(search.intersection(sub))]
答案 2 :(得分:0)
我已经了解了用于多字符串搜索的Aho-Corasick算法(参见https://en.wikipedia.org/wiki/Aho%E2%80%93Corasick_algorithm),以及它的python实现 pyahocorasick (参见http://pyahocorasick.readthedocs.io/en/latest/)。
我使用这个库重写了我的代码:
import ahocorasick
names # list of 4000 short static names
fields # list of 10000 retrieved strings
automaton = ahocorasick.Automaton()
for name in names:
automaton.add_word(name, name)
automaton.make_automaton()
def findit_with_ahocorasick(element):
try:
return next(A.iter(element))[1]
except StopIteration:
return None
output = [findit_with_ahocorasick(element) for element in fields]
与之前相比,它的运行速度要快得多(即我估算了我的数据的原始统计数据,整个10000批次的时间约为12秒,而0.8秒)。
此外,正如文档所述,自动机对象的初始创建(需要提供名称列表以创建单词树)如果单词是静态的,可以进行腌制,因为它们在我的情况下