我很惊讶:
import igraph
import random, time
start_time = time.time()
G = igraph.Graph(directed = True)
G.add_vertices(10000)
for i in range(30000):
G.add_edge(random.randint(0,9999), random.randint(0,9999))
print "done in " + str(int(time.time() - start_time)) + " seconds"
在63秒内完成返回
,而
import igraph
import random, time
start_time = time.time()
G = igraph.Graph(directed = True)
G.add_vertices(10000)
edges = []
for i in range(30000):
edges += [(random.randint(0,9999), random.randint(0,9999))]
G.add_edges(edges)
print "done in " + str(int(time.time() - start_time)) + " seconds"
在0秒内完成返回。 项目中有人知道为什么吗?
答案 0 :(得分:12)
原因是igraph使用索引边列表作为C层中的数据结构。索引使得可以在恒定时间内查询特定顶点的邻居。如果您的图表很少更改,这很好,但是当修改操作比查询更频繁时,它会成为负担,因为无论何时添加或删除边缘,都必须更新索引。因此,每次调用add_edge
都会使igraph重新索引其内部数据结构。好处是,如果你必须重建索引,你也可以使用add_edges
以大致相同的成本添加许多边。因此,在您的第一个代码示例中,您重建索引30000次,而在第二个示例中,您只重建索引一次。
顺便说一下,使用Graph.Erdos_Renyi(n=10000, m=30000)
可以更快地完成您正在做的事情。