提高std :: vector

时间:2016-02-26 02:00:02

标签: c++ multithreading c++11 inheritance vector

我正在构建一个建模软件我有一些关于如何获得最佳性能的问题?

1)我应该使用std::vector<class>还是std::vector<class*>?          我的类非常复杂/大,我认为使用第二个选项更好,因为std :: vector尝试连续分配内存,并且可能没有连续的内存块来存储一百万class,但是当我只存储指针时,class不必连续存储,只有指针必须存储,计算机可能有空间来执行此操作。这个推理是否正确?

2)正如我所说,我将拥有数百万class,(为了正确的模拟,我需要&gt;十亿class)继承是一个聪明的东西在这里使用? 对于我的模拟,有多种不同的类型继承自相同的基类

class A - class B 
        - class C
        - class D 

我是否应该避免继承,因为我一直听说使用继承会导致性能下降?

3)另外如何将所有这些不同的类存储在std :: vector中?    std::vector<base_class * >std::vector<base_class>可以存储从基类继承的类B,类C,类D吗?

4)在程序的前一版本中,我通过使不同的进程处理std :: vector的不同部分来使用多线程,是否有更好的方法来进行线程化?

5)我应该使用智能指针吗?由于我有这么多物体,它们会降低性能吗?

我正处于计划阶段,非常感谢任何帮助。

3 个答案:

答案 0 :(得分:6)

我每天都在专业的环境中处理这样的问题(我是一名C ++程序员,通过交易,处理大数据集)。因此,我在这里要说的是尽可能多的个人建议,因为它是一个答案。我不会全力以赴的简单部分:

1 - 是存储指针,它比重新分配和移动时间快得多于完整的类对象。

2 - 是的,如果对象有相关信息,请使用继承,我想在这种情况下,他们很可能会按照您的考虑进行。如果他们不这样做,你为什么要将它们存放在一起?

3 - 使用智能指针将它们全部存储到基类(父对象,因此您可以添加单个虚拟“get_type”函数来返回和枚举,并在需要时转换为子 < / em>。如果您不经常需要子数据,这将节省提供多个虚拟方法的开销。

4 - 可以辩护,但是对更大阵列的单独部分进行线程化是更简单的方法(当你处理巨大数据复杂性时,更简单更好。

  

每个人都知道调试的难度是首先编写程序的两倍。因此,如果你在编写它时就像你一样聪明,你将如何调试它? ~Brian Kernighan

5 - 使用智能指针(As explained in this question会有一些小的惩罚,但是在我看来,惩罚(特别是使用unique_ptr)与易用性和复杂性的损失相比是如此之小,这绝对是值得的

并将它们放在一起:

class Abstract_Parent;
std::vector<std::unique_ptr<Abstract_Parent>> Data;
enum ChildType {Child_1 = 0, Child_2 = 1};

class Abstract_Parent
{
    public:
    virtual ChildType GetType() = 0;
}   
class Child_One
{
    public:
    virtual ChildType GetType() { return Child_1; }
}   
class Child_Two
{
    public:
    virtual ChildType GetType() { return Child_2; }
}   
void Some_Function()
{
    //this is how to insert a child-object
    std::unique_ptr<Abstract_Parent> Push_me_Back(new Child_One());
    Data.Push_Back(std::move(Push_me_Back));

    if(Data[0]->GetType() == Child_1) 
    {
        Child_1 *Temp_Ptr = dynamic_cast<Child_One*> Data[0];
        Temp_Ptr->Do_Something_Specific();
    }
}

答案 1 :(得分:3)

1。)这取决于您的使用案例。如果要通过基类指针访问对象,则将使用指针。另一方面,你失去了连续内存和代码和数据缓存局部性的优势。

2.。)如果您需要10亿个实例,那么每个对象的每个附加数据都会增加您的内存占用量。例如,指向8字节的虚函数表(vptr)的附加指针将使您的内存需求增加8 GB。在没有虚拟基类的情况下将每个类型存储在不同的向量中不会产生这种开销。

2b)是的,如果你的目标是性能,你应该避免使用虚函数继承。如果使用不同的实现调用虚函数,则将删除指令高速缓存。至少你可以按类型对大矢量进行排序,以最大限度地减少这个问题。

3。)如果你选择带有虚函数的基类,你必须使用指针选项来防止切片。

4.。)需要更多信息,并应在单独的问题中回答。

5.)每次间接都会降低性能。

答案 2 :(得分:2)

  

1)我应该使用std::vector<class>还是s td::vector<class*>

假双切除术。还有其他几种选择:

  • boost::ptr_vector<class>
  • std::vector<std::unique_ptr<class>>
  • 可能更多。

我个人喜欢boost::ptr_vector<class>因为它存储了一个拥有的指针(因此内存分配是自动完成的)。但是当访问成员时,它们将作为对象(不是指针)的引用返回。因此,与标准算法一起使用它们比其他技术大大简化。

  

我的类非常复杂/大,我认为使用第二个选项更好,因为std :: vector尝试连续分配内存,并且可能没有连续的内存块来存储一百万个类,

这里真正的问题是,您是否可以预先计算向量的最大大小,并reserve()所需的空间量。如果你能做到这一点(从而避免任何复制成本),std::vector<class>将是最好的解决方案。

这是因为将对象置于连续存储中通常是速度方面的显着优势(特别是在扫描向量时)。当您拥有庞大的数据集时(特别是在十亿范围内),不应低估执行此操作的能力。

  

但是当我只存储指针时,不必连续存储类,只需要存储指针,计算机可能有空间来执行此操作。这种推理是否正确?

通过使用指针,您还需要存储对象和指向对象的指针,从而显着增加应用程序所需的内存量。超过数十亿的物体,这可能是一笔巨大的成本。

  

2)正如我所说的,我将拥有数百万的课程(为了正确的模拟,我需要大约十亿的课程)继承是一件明智的事情吗?

没有更多信息就无法说出来。

  

3)另外如何将所有这些不同的类存储在std :: vector中? std :: vector或std :: vector可以存储所有继承自基类的类B,类C,类D吗?

但是如果你使用继承,则无需直接使用std::vector<class>。您需要存储指向基类的指针。但这并不排除其他三种技术。

  

4)在程序的上一个版本中,我使用多线程来使不同的进程处理std :: vector的不同部分,是否有更好的方法来进行线程化?

这似乎是一种合理的方法(假设范围不重叠并且是连续的)。不要创建比可用内核更多的线程。

  

我应该使用智能指针吗?由于我有这么多物体,它们会降低性能吗?

在正常指针上使用unique_ptr的开销为零(假设您不使用自定义删除工具)。实际生成的代码基本相同。