我在Python中有一个包含字符串的列表:
["foo/bar","foo/bar/baz","foo/bar/qux"]
我正在尝试将该列表中未包含在任何其他更长元素中的最小元素分开。在这种情况下,我想返回一个列表["foo/bar/baz","foo/bar/qux"]
,因为它们不包含在任何更长的元素中。我不想"foo/bar"
,因为它包含在"foo/bar/baz"
和"foo/bar/qux"
中。我一直在尝试嵌套for和if语句,但我似乎无法做到正确。任何人都可以指出我正确的方向吗?
答案 0 :(得分:2)
我会首先对列表进行排序(在这种情况下,它已经排序了),然后将每个字符串与下一个字符串进行比较:
使用列表理解:
l = ["foo/bar/baz/abc", "fo/bar","foo/bar/baz","foo/bar/qux", "foo/bar/qux/abc"]
l.sort()
length = len(l)
new_list = [v for (i, v) in enumerate(l) if (index < length - 1) and (l[i] not in l[i + 1])]
new_list.append(l[-1]) // Append last element (as it will always be there).
print new_list
输出:
['fo/bar', 'foo/bar/baz/abc', 'foo/bar/qux/abc']
答案 1 :(得分:2)
假设你真的在寻找叶子目录(即“包含在”真的意思是“前缀为”而斜杠是特殊的),这里有一个简单的算法:
def leaf_dirs(dirlist):
"""Given a list of directories, find leaf directories"""
parents = {}
for path in dirlist:
parts = path.split('/')
if parts[0] == '':
raise ValueError("can't handle rooted directory %s" % path)
parent = '/'.join(parts[:-1])
parents[parent] = True
return [path for path in dirlist if path not in parents]
基本上,所有“父目录”名称都放入字典中,然后我们过滤掉这些名称。在“foo / bar / baz”和“foo / bar / quux”的情况下,父路径(foo / bar)输入两次,但我们并不在乎。
编辑:修复Omri Barel注意到的点,而不仅仅是使用parts[:-1]
:
while parts:
parts.pop() # strip last path component
parent = '/'.join(parts)
parents[parent] = True
这会剥离最后一个组件并进入父组件。 (我故意在这里输入空字符串,这样做有点简单。)
答案 2 :(得分:1)
new_list = []
for i in old_list:
found = False
for j in old_list:
if i in j and i != j:
found = True
break
if not found:
new_list.append(i)
答案 3 :(得分:1)
l = ["foo/bar","foo/bar/baz","foo/bar/qux", "foo/bar/qax/dda"]
sorted_l = sorted(l, key=len)
length, found = -1, False
for i,v in enumerate(sorted_l):
if found and not length == len(v): break
for vv in sorted_l[i+1:]:
if v in vv: break
else:
print v
length = len(v)
found = True
答案 4 :(得分:1)
这似乎应该构建一个树模型,然后从叶子到根目录。
这是一个可能有用的python树库:https://github.com/caesar0301/pyTree