从页面内容的字典创建层次结构树

时间:2009-11-27 16:54:37

标签: python data-structures tree hierarchical-trees

以下键:值对是“页面”和“页面内容”。

{
  'section-a.html':{'contents':'section-b.html section-c.html section-d.html'},
  'section-b.html':{'contents':'section-d.html section-e.html'},
  'section-c.html':{'contents':'product-a.html product-b.html product-c.html product-d.html'},
  'section-d.html':{'contents':'product-a.html product-c.html'},
  'section-e.html':{'contents':'product-b.html product-d.html'},
  'product-a.html':{'contents':''},
  'product-b.html':{'contents':''},
  'product-c.html':{'contents':''},
  'product-d.html':{'contents':''}
}

对于任何给定的“项目”,我如何找到所述项目的路径?由于我在大多数情况下对数据结构的知识非常有限,我假设这将是一个层次结构树。如果我错了,请纠正我!

更新:道歉,我应该更清楚地了解数据和我的预期结果。

假设'page-a'是一个索引,每个'page'实际上是一个出现在网站上的页面,其中每个'i​​tem'就像一个产品页面,会出现在亚马逊,Newegg等上。

因此,我对'item-d'的预期输出将是该项目的路径(或路径)。 例如(分隔符是任意的,这里为了说明): item-d具有以下路径:

page-a > page-b > page-e > item-d
page-a > page-c > item-d

UPDATE2 :更新了我原来的dict,以提供更准确和真实的数据。 '.html'补充说明。

3 个答案:

答案 0 :(得分:2)

这是一个简单的方法 - 它是O(N平方),因此,并非所有高度可扩展的,但是对于合理的书籍大小(如果你有数百万页,你需要思考)关于一种非常不同且不那么简单的方法; - )。

首先,制作一个更有用的字典,将页面映射到一组内容:例如,如果原始字典是d,则将另一个字典mud设为:

mud = dict((p, set(d[p]['contents'].split())) for p in d)

然后,将dict映射到其父页面:

parent = dict((p, [k for k in mud if p in mud[k]]) for p in mud)

在这里,我正在使用父页面列表(集合也可以正常),但对于具有0或1个父节点的页面也可以,如您的示例中所示 - 您将只使用空列表来表示“没有父母”,否则一个列表,父母作为唯一的项目。这应该是一个非循环的有向图(如果你有疑问,你可以检查,当然,但我正在跳过那个检查)。

现在,给定一个页面,找到其父节点到无父节点父节点(“根页面”)的路径只需要“走”parent字典。例如,在0/1的父母案例中:

path = [page]
while parent[path[-1]]:
  path.append(parent[path[-1]][0])

如果你能更好地澄清你的规格(每本书的页数范围,每页的父母数量等等),这个代码无疑可以得到改进,但作为一个开始,我希望它可以提供帮助。

修改:由于OP澄清了>确实有1个父母(以及多个路径),让我说明如何处理:

partial_paths = [ [page] ]
while partial_paths:
  path = partial_paths.pop()
  if parent[path[-1]]:
    # add as many partial paths as open from here
    for p in parent[path[-1]]:
      partial_paths.append(path + [p])
  else:
    # we've reached a root (parentless node)
    print(path)

当然,代替print,你可以yield每个路径到达一个根(使其身体成为生成器的函数),或者以任何方式处理它需要。

再次编辑:评论者担心图表中的周期。如果担心这一点,那么跟踪已经在路径中看到的节点并检测并警告任何周期并不困难。最快的是在表示部分路径的每个列表旁边设置一个集合(我们需要列表进行排序,但是检查成员资格是集合中的O(1)与列表中的O(N)):

partial_paths = [ ([page], set([page])) ]
while partial_paths:
  path, pset = partial_paths.pop()
  if parent[path[-1]]:
    # add as many partial paths as open from here
    for p in parent[path[-1]]:
      if p in pset:
        print('Cycle: %s (%s)' % (path, p))
        continue
      partial_paths.append((path + [p], pset.union([p])))
  else:
    # we've reached a root (parentless node)
    print('Path: %s' % (path,))

为清楚起见,将列表打包并使用合适的方法将部分路径表示为一个小的实用程序类路径,这可能是值得的。

答案 1 :(得分:1)

以下是您的问题的插图。有图片时,更容易推理图表。

首先,缩写数据:

#!/usr/bin/perl -pe
s/section-([a-e])\.html/uc$1/eg; s/product-([a-e])\.html/$1/g

结果:

# graph as adj list
DATA = {
  'A':{'contents':'B C D'},
  'B':{'contents':'D E'},
  'C':{'contents':'a b c d'},
  'D':{'contents':'a c'},
  'E':{'contents':'b d'},
  'a':{'contents':''},
  'b':{'contents':''},
  'c':{'contents':''},
  'd':{'contents':''}
}

转换为graphviz的格式:

with open('data.dot', 'w') as f:
    print >> f, 'digraph {'
    for node, v in data.iteritems():
        for child in v['contents'].split():
            print >> f, '%s -> %s;' % (node, child),
        if v['contents']: # don't print empty lines
            print >> f
    print >> f, '}'

结果:

digraph {
A -> C; A -> B; A -> D;
C -> a; C -> b; C -> c; C -> d;
B -> E; B -> D;
E -> b; E -> d;
D -> a; D -> c;
}

绘制图表:

$ dot -Tpng -O data.dot

data.dot

答案 2 :(得分:0)

编辑随着问题解释得更好,我认为以下可能是您需要的,或者至少可以提供一些起点。

data = {
  'section-a.html':{'contents':'section-b.html section-c.html section-d.html'},
  'section-b.html':{'contents':'section-d.html section-e.html'},
  'section-c.html':{'contents':\
                    'product-a.html product-b.html product-c.html product-d.html'},
  'section-d.html':{'contents':'product-a.html product-c.html'},
  'section-e.html':{'contents':'product-b.html product-d.html'},
  'product-a.html':{'contents':''},
  'product-b.html':{'contents':''},
  'product-c.html':{'contents':''},
  'product-d.html':{'contents':''}
}

def findSingleItemInData(item):
    return map( lambda x: (item, x), \
                [key for key in data if data[key]['contents'].find(item) <> -1])

def trace(text):
    searchResult = findSingleItemInData(text)
    if not searchResult:
        return text

    retval = [] 
    for item in searchResult:
        retval.append([text, trace(item[-1])]) 

    return retval

print trace('product-d.html')

<强> OLD

我真的不知道你期望看到什么,但也许是类似的东西 这将有效。

data = {
   'page-a':{'contents':'page-b page-c'},
   'page-b':{'contents':'page-d page-e'},
   'page-c':{'contents':'item-a item-b item-c item-d'},
   'page-d':{'contents':'item-a item-c'},
   'page-e':{'contents':'item-b item-d'}
}

itemToFind = 'item-c'

for key in data:
  for index, item in enumerate(data[key]['contents'].split()):
    if item == itemToFind:
      print key, 'at position', index

如果你稍微使用它会更容易,而且我认为更正确 不同的数据结构:

 data = {
   'page-a':{'contents':['page-b', 'page-c']},
   'page-b':{'contents':['page-d', 'page-e']},
   'page-c':{'contents':['item-a', 'item-b item-c item-d']},
   'page-d':{'contents':['item-a', 'item-c']},
   'page-e':{'contents':['item-b', 'item-d']}
 }

然后你不需要拆分。

鉴于最后一种情况,它甚至可以表达得更短:

for key in data:
    print [ (key, index, value) for index,value in \
             enumerate(data[key]['contents']) if value == 'item-c' ]

甚至更短,删除了空列表:

print filter(None, [[ (key, index, value) for index,value in \ 
       enumerate(data[key]['contents']) if value == 'item-c' ] for key in data])

这应该是一行,但我使用\作为换行符指示符,以便可以读取 没有滚动条。