(int,const char *)作为uthash库的复合键

时间:2017-08-26 19:43:24

标签: c string pointers hashtable uthash

我想将uthash库用于包含intconst char *对的哈希表作为复合键:

typedef struct entry_s {
    // This field is needed by the uthash library
    UT_hash_handle hh;

    // Values
    /* ... */

    // Compound key
    int num;
    const char *str;
} entry;

具体来说,我希望const char *指向的字符串成为密钥的一部分。澄清一下:指针的不同值可能对应于相同的字符串(在strcmp()意义上)。

userguide显示了如何使用intchar[]作为复合键来实现与我想要的密钥类似的密钥:

typedef struct another_entry_s {
    // This field is needed by the uthash library
    UT_hash_handle hh;

    // Values
    /* ... */

    int str_len;

    // Compound key
    int num;
    char str[];
} another_entry;

但是,第二种方法(即(int, char[]))假定字符串被复制到char[],但我想避免复制。

此外,我不是要寻找连接intconst char *指向的字符串,以便利用HASH_ADD_KEYPTR()HASH_FIND_STR()便利宏。

我无法弄清楚如何使用HASH_ADD()HASH_FIND()和其他常规宏,第一种方法(即(int, const char *))。看起来像是通过uthash库设计避免复制是不可能的。我理解对吗?或者是否存在我忽略的非复制方法?

1 个答案:

答案 0 :(得分:1)

这个库的设计是不可能的(如果没有复制,任何通用的实现都是不可能的。)

对于任何散列表实现,您需要对某些数据应用一些散列函数。因此,您当然可以编写特定的实现,其中散列函数使用整数字段的字节其他字段指向的字符串的字节。但是,如果您的哈希表实现是泛型,那么哈希函数的唯一选择就是类似于此:

unsigned int hash(void *data, size_t size);

原型不必像这样看完全,但无论如何,输入是指向某些数据(任何类型)和大小的指针那些数据。所以,显然,你不能同时从两个不同的位置读取这样的功能。

根据the uthash documentation,uthash通过要求它们由相邻的struct成员组成来解决复合键的问题。然后从第一个成员中读取数据,其大小包括所有成员和填充。该库的文档知道该问题,并要求必须将结构初始化为全零,例如,使用memset(),因此填充位具有已定义的值。如果你想使用它,必须使你的字符串成为结构的成员(而不是指向它的指针)。

虽然这在大多数实现中都可能正常工作,但我个人不会完全依赖这个功能,因为在设置某个成员后C标准不保证定义的填充值,请参阅

C11(草案N1570),§6.2.6.1p6

  

当值存储在结构或联合类型的对象中时,包括在成员中   object,对象表示的字节,对应于任何填充字节   未指定的值。 [...]

因此,使用复合键与此库非常安全且可移植的方法是:获取数据的连续副本。你可以做这样的事情,给你上面的结构添加一个字段char *hashKey

#define ENTRY_KEYLEN(str) (sizeof(int) + strlen(str))
#define ENTRY_GETKEY(key, e) (getEntryKey((key), (e)->num, (e)->str))

static void getEntryKey(char *key, int num, const char *str)
{
    memcpy(key, &num, sizeof num);
    memcpy(key + sizeof num, str);
}

然后你可以像这样使用uthash宏:

entry *entries = 0;

entry *myent;
// allocate space, fill data in myent

// store in hashtable:
char *key = malloc(ENTRY_KEYLEN(myent->str));
// check key for NULL
ENTRY_GETKEY(key, myent);
myent->hashKey = key;
HASH_ADD_KEYPTR(hh, entries, key, ENTRY_KEYLEN(myent->str), myent);

// [...]

// find in hashtable
const char *str = "foo";
int id = 42;
key = malloc(ENTRY_KEYLEN(str));
// check key for NULL
getEntryKey(key, id, str);
entry *found;
HASH_FIND(hh, entries, key, ENTRY_KEYLEN(str), found);
free(key);

可能最好使用不同的通用散列表实现,这使得你的用例更容易,例如通过使用一些回调函数来检索散列密钥数据。