如何使用boost :: unordered_map

时间:2010-10-21 09:05:09

标签: c++ boost hash unordered-map

对于我的应用程序,我需要使用哈希映射,所以我编写了一个测试程序,其中我在boost :: unordered_map中存储了一些基类的实例。但我想通过调用返回基类的派生类的特殊函数来实现实例,并且我将这些函数的参数用于unordered_map的散列键。如果没有找到具有某些参数的类,则生成一个类并将其存储在map中。该计划的目的可能不明确,但这是代码。

#include <boost/unordered_map.hpp>
#include <iostream>

using namespace std;
using namespace boost;
typedef unsigned char BYT;
typedef unsigned long long ULL;

class BaseClass
{
public:
    int sign;
    size_t HASHCODE;
    BaseClass(){}
};

class  ClassA : public BaseClass
{
public:
    int AParam1;
    int AParam2;
    ClassA(int s1, int s2) : AParam1(s1), AParam2(s2)
    {
        sign = AParam1;
    }
};


struct HashKey
{
    ULL * hasharray;
    size_t hashNum;
    size_t HASHCODE;
    HashKey(ULL * ULLarray,  size_t Hashnum) : hasharray(ULLarray), hashNum(Hashnum), HASHCODE(0)
    {   }
    bool operator == (const HashKey & hk ) const
    {
        bool deg = (hashNum == hk.hashNum);
        if (deg)
        {
            for (int i = 0; i< hashNum;i++)
                if(hasharray[i] != hk.hasharray[i]) return false;
        }
        return deg;
    }
};

struct ihash : std::unary_function<HashKey, std::size_t>
{
    std::size_t operator()(HashKey const & x) const
    {
        std::size_t seed = 0;
        if (x.hashNum == 1)
            seed = x.hasharray[0];
        else
        {
            int amount = x.hashNum * 8;
            const std::size_t fnv_prime = 16777619u;
            BYT * byt = (BYT*)x.hasharray;
            for (int i = 0; i< amount;i++)
            {
                seed ^= byt[0];
                seed *= fnv_prime;
            }
        }
        return seed;
    }
};

typedef std::pair<HashKey,BaseClass*> HashPair;
unordered_map<HashKey,BaseClass*,ihash> UMAP;
typedef unordered_map<HashKey,BaseClass*,ihash>::iterator iter;


BaseClass * & FindClass(ULL* byt, int Num, size_t & HCode)
{
    HashKey hk(byt,Num); 
    HashPair hp(hk,0);
    std::pair<iter,bool> xx = UMAP.insert(hp);
//  if (xx.second) UMAP.rehash((UMAP.size() + 1) / UMAP.max_load_factor() + 1);
    if (!xx.first->second) HCode = UMAP.hash_function()(hk);
    return xx.first->second;
}


template <typename T, class A,class B> 
T* GetClass(size_t& hashcode ,A a, B b)
{   
    ULL byt[3] = {a,b,hashcode};
    BaseClass *& cls = FindClass(byt, 3, hashcode);
    if(! cls){ cls = new T(a,b); cls->HASHCODE = hashcode;}
    return static_cast<T*>(cls);
}



ClassA * findA(int Period1, int Period2)
{
    size_t classID = 100;
    return GetClass<ClassA>(classID,Period1,Period2);
}

int main(int argc, char* argv[])
{
    int limit = 1000;
     int modnum = 40;
    int result = 0;

    for(int i = 0 ; i < limit; i++ )
    {
        result += findA( rand() % modnum ,4)->sign ;
    }

    cout << UMAP.size() << "," << UMAP.bucket_count() << "," << result <<  endl;

    int x = 0;

    for(iter it =  UMAP.begin(); it != UMAP.end(); it++)
    {
        cout << ++x << "," << it->second->HASHCODE << "," << it->second->sign << endl ;
        delete it->second;

    }

    return 0;
}

问题是,我希望UMAP的大小等于modnum但是它总是大于modnum,这意味着有多个实例具有相同的参数和HASHCODE。

我的问题的解决方案是什么?请帮忙。
感谢

2 个答案:

答案 0 :(得分:3)

以下是一些设计问题:

struct HashKey
{
    ULL * hasharray;
    ...

您的密钥类型存储指向某个数组的指针。但是这个指针是用本地对象的地址初始化的:

BaseClass * & FindClass(ULL* byt, int Num, size_t & HCode)
{
    HashKey hk(byt,Num); // <-- !!!
    HashPair hp(hk,0);
    std::pair<iter,bool> xx = UMAP.insert(hp);
    if (!xx.first->second) HCode = UMAP.hash_function()(hk);
    return xx.first->second;
}

template <typename T, class A,class B> 
T* GetClass(size_t& hashcode ,A a, B b)
{   
    ULL byt[3] = {a,b,hashcode}; // <-- !!!
    BaseClass *& cls = FindClass(byt, 3, hashcode);
    if(! cls){ cls = new T(a,b); cls->HASHCODE = hashcode;}
    return static_cast<T*>(cls);
}

这使得地图存储带有悬空指针的HashKey对象。您还要在FindClass中返回对名为xx的函数本地对象的成员的引用。使用此引用会调用未定义的行为。

考虑重命名地图的密钥类型。哈希码本身不应该是关键。并且正如您的运算符==对于HashKey建议的那样,您不希望实际的键是哈希码,而是可变长度的整数序列。另外,考虑将序列存储在键类型内而不是指针中,例如,作为向量。另外,避免返回对函数本地对象的引用。

答案 1 :(得分:1)

使用unordered_map并不能保证你没有碰撞,这就是你在这里描述的。

  

有多个实例   具有相同的参数和HASHCODE

您可以调整哈希算法以最小化此值,但在(不可避免的)冲突情况下,哈希容器会扩展与该哈希码对应的存储桶中的对象列表。然后使用等式比较来解决与特定匹配对象的冲突。这可能是您的问题所在 - 也许您的operator==没有正确消除相似但不相同的对象的歧义。

每个存储桶不能指望一个对象,否则容器会在大型集合大小的情况下无限制地增长。

顺便说一句,如果您使用的是较新的编译器,您可能会发现它支持std::unordered_map,因此您可以使用它(官方STL版本)而不是Boost版本。