提升:大图和多线程

时间:2013-10-22 13:57:58

标签: c++ multithreading boost graph boost-graph

我需要创建一个定向图,它可以从一个大数据集中变得非常大。我肯定知道这些事情:

  • 每个节点最多有K个出边
  • 我有一个N>>的列表(unordered_map) K个节点
  • 通过比较所有节点来构建图表(是的,不幸的是,O(N ^ 2))

考虑到这一点,我会使用std::thread并行创建图表,我想知道是否可以通过Boost Graph Library完成。

如果我使用邻接矩阵,应该可以预先分配矩阵(K * N个元素),因此插入所有相邻节点是线程安全的。

我读过BGL可能是线程不安全的,但我发现的帖子已经有三年了。

你知道我是否可以做我正在考虑的事情?你建议不这样做吗?

干杯!

2 个答案:

答案 0 :(得分:3)

BGL中的几乎任何图算法都需要映射:vertex - > int,为每个顶点分配一个范围为[0,num_vertices(g))的唯一整数。此映射称为“vertex_index”,通常可以作为property_map进行访问。

话虽如此,我可以假设您的顶点已经是整数或与某些整数相关联(例如,您的unordered_map在“mapped_type”中有一些额外的字段)。如果你的输入顶点以连续的紧密阵列存储,例如更好(对于性能和记忆),例如std :: vector,然后索引是自然的。

如果顶点与[整数]相关联,则对于内存紧密图形的最佳选择是“Compressed Sparse Row Graph”。图形是不可变的,因此您需要在生成图形之前填充边缘容器。

正如ravenspoint解释的那样,您最好的选择是为每个线程配备自己的本地容器结果,并仅在将本地结果合并到最终结果时锁定中央容器。 TBB模板tbb::parallel_reduce无锁地实施此类策略。因此,图表构建的完整代码大致如下所示:

#include "tbb/blocked_range2d.h"
#include "tbb/parallel_reduce.h"
#include "boost/graph/compressed_sparse_row_graph.hpp"

typedef something vertex; //e.g.something is integer giving index of a real data

class EdgeBuilder
{
public:
    typedef std::pair<int,int> edge;
    typedef std::vector<edge> Edges;
    typedef ActualStorage Input;

    EdgeBuilder(const Input & input):_input(input){} //OPTIONAL: reserve some space in _edges
    EdgeBuilder( EdgeBuilder& parent, tbb::split ): _input(parent.input){} // reserve something

    void operator()( const const tbb::blocked_range2d<size_t>& r ) 
    { 
        for( size_t i=r.rows().begin(); i!=r.rows().end(); ++i ){
            for( size_t j=r.cols().begin(); j!=r.cols().end(); ++j ) {
                //I assume you provide some function to compute existence
                if (my_func_edge_exist(_input,i, j))
                    m_edges.push_back(edge(i,j));
            }
        }        
    } 

    //merges local results from two TBB threads
    void join( EdgeBuilder& rhs ) 
    {
        m_edges.insert( m_edges.end(), rhs.m_edges.begin(), rhs.m_edges.end() ); 
    }

    Edges _edges; //for a given interval of vertices
    const Input & _input;
};

//full flow:  
boost::compressed_sparse_row_graph<>* build_graph( const Storage & vertices)
{
    EdgeBuilder builder(vertices);
    tbb::blocked_range2d<size_t,size_t> range(0,vertices.size(), 100, //row grain size 
                                              0,vertices.size(), 100); //col grain size
    tbb::parallel_reduce(range, builder);

    boost::compressed_sparse_row_graph<> 
      theGraph = new boost::compressed_sparse_row_graph<> 
                        (boost::edges_are_unsorted_multi_pass_t, 
                         builder._edges.begin(), builder._edges.end(), 
                         vertices.size() );
    return theGraph;
}

答案 1 :(得分:1)

我认为你应该把你的目标分成两个单独的子目标。

  1. 通过对节点对进行N *(N-1)次测试来创建节点之间的链接。您似乎已经知道如何将其分解为独立的线程。将结果存储在一个你知道是线程安全的数据结构中,而不必担心boost:graph的奥秘。

  2. 从您的节点和(刚刚创建的)链接创建boost :: graph。

  3. 关于存储在每个线程中创建的链接的注意事项:找到合适的线程安全数据结构并不容易。如果您使用STL动态分配的结构,那么您必须担心使线程安全的分配器成为一个挑战。如果你预先分配,那么有很多meessy代码来处理分配。所以,我建议将每个线程创建的链接存储在一个单独的数据结构中,这样它们就不必是线程安全的。全部创建链接后,您可以逐个遍历每个线程创建的链接。

    可以设想一种稍微高效的设计,但需要大量关于线程安全的神秘知识。我提出的设计可以在没有神秘知识或棘手代码的情况下实现,因此可以更快速,更稳健地实现,并且更易于维护。