哈希算法的实现将字符串转换为数字

时间:2016-12-28 01:25:53

标签: c data-structures hash hashtable

我必须实现哈希表, 我得到的方案显示如何将字符串转换为数字(哈希函数):

abcdef... -> ((256*a+b) XOR (256*c+d)) XOR (256*e+f) ...

我正在写这个问题,因为我不确定这段代码(主要是循环)是否以正确的方式工作。

int hash(char *s){
    int len = strlen(s);
    int i, result = 0;
    for(i = 0; i < len-1; i=i+2) {
            result ^= ((256*s[i])+s[i+1]);
    }
    if(s[i]!=0) {
            result ^= (256*s[i]);
    }
    return result;
}

1 个答案:

答案 0 :(得分:2)

Hash函数在技术上属于Cryptography的分支,这与Hashing的(可疑)定义和(严格)要求有关。

因此,强烈建议您不要使用自己的哈希算法并坚持使用最小化冲突的现有(测试)算法。

将一个字符串转换为一个数字并不是一个哈希...虽然它可能是一种很好的方式来体验碰撞,当你认为你想出了一个独特的价值时就会遇到无法追踪的问题......

除非这不是一个学校作业,你给了一些存根&#34; hash&#34;算法实际上意味着满足一个任务(而不是一个真实的实现),尝试查找真正的哈希算法。所有这些都带有伪代码,其中大多数都带有用于测试的C实现。

例如,SipHash是一些非常常见的字符串散列算法,用于某些标准库(即Ruby和Rust)。

祝你好运!

修改

有些人认为使用加密哈希函数是次优的。您应该考虑您的用例,但是......如果您使用哈希来假设股权,我建议您支付性能价格。如果您将哈希用作不安全指标,则可能无关紧要。

此处a page with some non-cryptographic hash functions

P.S。

这是我为SipHash写的一个实现,我提到过......我的代码没有经过充分测试,所以如果您发现任何问题,请随意post them here

#include <stdlib.h>
#include <stdint.h>

#define SIPHASH_DEFAULT_KEY                         \
  (uint64_t[]) { 0x0706050403020100, 0x0f0e0d0c0b0a0908 }

uint64_t siphash24(const void *data, size_t len, uint64_t iv_key[2]);

// clang-format off
#if !defined(__BIG_ENDIAN__) && !defined(__LITTLE_ENDIAN__)
#   if defined(__has_include)
#     if __has_include(<endian.h>)
#      include <endian.h>
#     elif __has_include(<sys/endian.h>)
#      include <sys/endian.h>
#     endif
#   endif
#   if !defined(__BIG_ENDIAN__) && !defined(__LITTLE_ENDIAN__) && \
                __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
#      define __BIG_ENDIAN__
#   endif
#endif

#ifndef __unused
#   define __unused __attribute__((unused))
#endif
// clang-format on

/** 64Bit left rotation, inlined. */
#define _lrot64(i, bits)                                                       \
  (((uint64_t)(i) << (bits)) | ((uint64_t)(i) >> (64 - (bits))))

#ifdef __BIG_ENDIAN__
/* the algorithm was designed as little endian */
/** inplace byte swap 64 bit integer */
#define sip_local64(i)                                                         \
  (((i)&0xFFULL) << 56) | (((i)&0xFF00ULL) << 40) |                            \
      (((i)&0xFF0000ULL) << 24) | (((i)&0xFF000000ULL) << 8) |                 \
      (((i)&0xFF00000000ULL) >> 8) | (((i)&0xFF0000000000ULL) >> 24) |         \
      (((i)&0xFF000000000000ULL) >> 40) | (((i)&0xFF00000000000000ULL) >> 56)

#else
/** no need */
#define sip_local64(i) (i)
#endif

uint64_t siphash24(const void *data, size_t len, uint64_t iv_key[2]) {
  /* initialize the 4 words */
  uint64_t v0 = iv_key[0] ^ 0x736f6d6570736575ULL;
  uint64_t v1 = iv_key[1] ^ 0x646f72616e646f6dULL;
  uint64_t v2 = iv_key[0] ^ 0x6c7967656e657261ULL;
  uint64_t v3 = iv_key[1] ^ 0x7465646279746573ULL;
  const uint64_t *w64 = data;
  uint8_t len_mod = len & 255;
  union {
    uint64_t i;
    uint8_t str[8];
  } word;

#define _bs_map_SipRound                                                       \
  do {                                                                         \
    v2 += v3;                                                                  \
    v3 = _lrot64(v3, 16) ^ v2;                                                 \
    v0 += v1;                                                                  \
    v1 = _lrot64(v1, 13) ^ v0;                                                 \
    v0 = _lrot64(v0, 32);                                                      \
    v2 += v1;                                                                  \
    v0 += v3;                                                                  \
    v1 = _lrot64(v1, 17) ^ v2;                                                 \
    v3 = _lrot64(v3, 21) ^ v0;                                                 \
    v2 = _lrot64(v2, 32);                                                      \
  } while (0);

  while (len >= 8) {
    word.i = sip_local64(*w64);
    v3 ^= word.i;
    /* Sip Rounds */
    _bs_map_SipRound;
    _bs_map_SipRound;
    v0 ^= word.i;
    w64 += 1;
    len -= 8;
  }
  word.i = 0;
  uint8_t *pos = word.str;
  uint8_t *w8 = (void *)w64;
  switch (len) {
  case 7:
    pos[6] = w8[6];
  case 6:
    pos[5] = w8[5];
  case 5:
    pos[4] = w8[4];
  case 4:
    pos[3] = w8[3];
  case 3:
    pos[2] = w8[2];
  case 2:
    pos[1] = w8[1];
  case 1:
    pos[0] = w8[0];
  }
  word.str[7] = len_mod;
  // word.i = sip_local64(word.i);

  /* last round */
  v3 ^= word.i;
  _bs_map_SipRound;
  _bs_map_SipRound;
  v0 ^= word.i;
  /* Finalization */
  v2 ^= 0xff;
  /* d iterations of SipRound */
  _bs_map_SipRound;
  _bs_map_SipRound;
  _bs_map_SipRound;
  _bs_map_SipRound;
  /* XOR it all together */
  v0 ^= v1 ^ v2 ^ v3;
#undef _bs_map_SipRound
  return v0;
}

#undef sip_local64
#undef _lrot64

switch案件是故意的)