我有一本字典说,
stringToListDict = {'foo' : [], 'bar' : []}
现在我们可以说
+ foofoo
stringToListDict = {'foo' : ['foofoo'], 'bar' : []}
+ BARBAR
stringToListDict = {'foo' : ['foofoo'], 'bar' : ['barbar']}
+ foobarbar
stringToListDict = {'foo' : ['foofoo', 'foobarbar'], 'bar' : ['barbar']}
+ notMatchingAnyKey
Simply discard this new string.
正如您所看到的,添加的字符串通过匹配键作为前缀。
我可以通过逐个遍历每个键的字典来完成此操作,直到我得到匹配的前缀。但是还有其他优雅或有效的方法吗?您不必担心边缘情况,例如:如果出现以下情况:
stringToListDict = {'foo' : ['foofoo'], 'foobar' : [], 'bar' : ['barbar']}
then +foobarbar
仅供参考,这不是作业。
答案 0 :(得分:3)
如果你正在使用dict,那么是的,你必须迭代所有的键来找到任何匹配。 Dicts是基于哈希表构建的,并且哈希函数没有任何“开始于”或“关闭”的概念来利用(事实上,它们专门设计用于为关闭输入提供非常不同的输出)。
要做你想做的事并不难:
for k, v in d.items():
if s.startswith(k):
v.append(s)
break
else:
# whatever you want to do if no prefix exists
但是如果dict很大,那么 效率低,因为你正在进行线性搜索。
你可以让它在键的长度上变成线性,而不是dict的长度(在你的测试用例中它实际上较慢,但在性能很重要的大多数情况下可能更快) ):
for i in range(len(s), 0, -1):
try:
d[k[:i]].append(s)
break
except KeyError:
pass
else:
# whatever you want to do if no prefix exists
但是如果你需要最佳效率,你想要看一个对数数据结构,比如平衡的二叉搜索树,b树,跳转列表,trie,甚至只是按排序顺序保存的普通旧列表。您可以在PyPI或ActiveState配方存储库中找到的此类类型的大多数实现都有一个方法来按排序顺序查找键的插入位置。或者,如果您使用的是普通旧列表,只需使用stdlib中的bisect
模块即可。只需在插入位置之前检查密钥,然后从密钥开始,或者没有任何内容。
例如,使用sortedcontainers.SortedDict
:
i = d.bisect(s)
if d.iloc[i].startswith(s):
d[d.iloc[i]].append(s)
else:
# whatever you want to do if no prefix exists
如果你有一个庞大,密集的密钥组,并且你正在进行大量的查询和插入,那么前缀trie可能是最有效的。但是对于不同的特征,其他人可能会胜出。所以,如果这很重要,你可以尝试一些并进行测试。
答案 1 :(得分:2)
您可以使用以下函数执行前缀匹配:
def append_longest_prefix(data_dict, to_append):
for i in range(1, len(to_append)):
if to_append[:-i] in data_dict:
data_dict[to_append[:-i]].append(to_append)
return
data = {'foo': [], 'bar': []}
append_longest_prefix(data, 'foofoo')
append_longest_prefix(data, 'barbar')
append_longest_prefix(data, 'foobarbar')
append_longest_prefix(data, 'notMatchingAnyKey')
print(data)
data = {'foo' : ['foofoo'], 'foobar' : [], 'bar' : ['barbar']}
append_longest_prefix(data, 'foobarbar')
print(data)
{'foo': ['foofoo', 'foobarbar'], 'bar': ['barbar']}
{'foo': ['foofoo'], 'foobar': ['foobarbar'], 'bar': ['barbar']}
答案 2 :(得分:1)
您可以尝试:
_dict = {'foo' : [], 'bar' : []}
def _add(_str):
for _key in _dict.keys(): # loop _dict keys
if _str.startswith(_key): # check if _str starts with _dict _key
_dict[_key].append(_str) # append _str to _dict based on _key
_add("foofoo")
_add("barbar")
_add("foobarbar")
_add("notMatchingAnyKey")
# {'foo': ['foofoo', 'foobarbar'], 'bar': ['barbar']}