序列化有向加权图

时间:2013-11-21 23:23:28

标签: python optimization python-3.x graph

我有一个定向加权图。图的每个节点表示为2元组,其第一个元素是节点的名称,其第二个元素是包含源自此节点的所有顶点的元组,按其权重排序。基本上每个顶点的权重是它在这个元组中的索引。

Exemptigratia:

a = ('A', () )

a是一个名称为A的节点,其中没有顶点。

b = ('B', () )
a = ('A', (b,) )

a是名为A的节点,其中一个顶点指向名为B的节点,权重为0.

b = ('B', () )
c = ('C', () )
a = ('A', (b, c) )

a是名为A的节点,其中两个顶点指向名为B和C的节点,第一个为权重0,第二个为权重1.

('A', (b, c) )显然不等于('A', (c, b) )

现在我需要根据这些规则序列化这个图:

  1. 结果的第一个元素是起始节点。
  2. 然后按照权重递增的顺序跟随从起始节点直接可访问的所有节点。如果节点已经在结果中,请不要再次追加它。
  3. 现在递归地将规则一和二应用于刚刚添加的所有元素。
  4. 基本上,从低到高(重量)第一,深度第二。

    这里有一个示例输入和输出:

    f = ('F', () )
    e = ('E', () )
    d = ('D', (e,) )
    c = ('C', (f, d, e) )
    b = ('B', (d,) )
    a = ('A', (b, c) )
    

    结果:

    ['A', 'B', 'C', 'D', 'F', 'E']
    

    现在我的第一个天真的方法是:

    def serialize (node):
        acc = []
    
        def serializeRec (node, level):
            tbd = [] #acc items to be deleted
            tbi = False #insertion index
            for idx, item in enumerate (acc):
                if item [1] > level and tbi == False:
                    tbi = idx
                if item [0] == node [0]:
                    if item [1] > level: tbd.append (item)
                    else: break
            else:
                if tbi == False: acc.append ( (node [0], level) )
                else: acc.insert (tbi, (node [0], level) )
            for item in tbd:
                acc.remove (item)
            for vertex in node [1]:
                serializeRec (vertex, level + 1)
    
        serializeRec (node, 0)
        #remove levels
        return [node for node, level in acc]
    

    这显然是一个非常糟糕的主意,因为在每次递归中我都会迭代各种列表。这就是我切换到字典的原因:

    def serializeDict (node):
        levels = defaultdict (list) #nodes on each level
        nodes = {} #on which level is which node
    
        def serializeRec (node, level):
            try:
                curLevel = nodes [node [0] ]
                if curLevel > level:
                    nodes [node [0] ] = level
                    levels [curLevel].remove (node [0] )
                    levels [level].append (node [0] )
            except:
                nodes [node [0] ] = level
                levels [level].append (node [0] )
            for vertex in node [1]:
                serializeRec (vertex, level + 1)
    
        serializeRec (node, 0)
        #flatten dict items
        return [node for level in (v for _, v in sorted (levels.items (), key = lambda x: x [0] ) ) for node in level]
    

    除了非常小的图表之外,其运行速度要快得多。

    我现在的问题是:

    如何以最小化运行时的目标优化此序列化?

    内存使用无关紧要(是的,宝贝),KLOC无关紧要,只有运行时间。除输入数据的格式外,一切都可以更改。但如果最后节省时间,我很乐意在序列化函数中重新组织这些数据。

    我非常感谢你阅读这篇TL; DR墙壁。


    欺骗的示例图:

    z = ('Z', () ); y = ('Y', (z,) ); x = ('X', (z, y) ); w = ('W', (x, y, z) ); v = ('V', (w, x) ); u = ('U', (w, v) ); t = ('T', (u, w) ); s = ('S', (z, v, u) ); r = ('R', (t, u, z) ); q = ('Q', (r, z) ); p = ('P', (w, u) ); o = ('O', (v, r, q) ); n = ('N', (r, z) ); m = ('M', (t,) ); l = ('L', (r,) ); k = ('K', (x, v) ); j = ('J', (u,) ); i = ('I', (n, k) ); h = ('H', (k, x) ); g = ('G', (l,) ); f = ('F', (t, m) ); e = ('E', (u,) ); d = ('D', (t, e, v) ); c = ('C', (m,) ); b = ('B', (n,) ); a = ('A', (g, m, v) )
    

2 个答案:

答案 0 :(得分:1)

这没有递归,并且使用双端队列来提高效率:

from collections import deque

def serialize_plain(n):
    name, children = n
    output = [name]

    candidates = deque(children)
    while candidates:
        cname, cchildren = candidates.popleft()
        if cname not in output:
            output.append(cname)
            candidates.extend(cchildren)

    return output

根据图表的大小,保留已处理的一组节点以避免昂贵的列表查询可能是有意义的:

from collections import deque

def serialize_with_set(n):
    name, children = n
    output = [name]
    done = {name}

    candidates = deque(children)
    while candidates:
        cname, cchildren = candidates.popleft()
        if cname not in done:
            output.append(cname)
            done.add(cname)
            candidates.extend(cchildren)

    return output

答案 1 :(得分:0)

  

现在我需要根据这些规则序列化这个图:

     

结果的第一个元素是起始节点。   然后按照权重递增的顺序跟随从起始节点直接可访问的所有节点。如果节点已经在结果中,请不要再次附加它。   现在递归地将规则一和二应用于刚刚添加的所有元素。

我想补充一点,从理论的角度来看,这是一种非常常见的遍历图形的方式,称为Breadth First Traversal,需要对邻居列表进行排序。正如第一个答案中所提到的,通常使用队列来避免递归。

如果你的项目允许使用一个,你应该在任何自尊的图形库中找到广度优先遍历。例如,This one应该很快,因为它基于优秀的C ++ boost::graph,它是C ++世界中事实上的标准图形库。