Question

我提供了数百种使用所有不同语言（unicode）的文本片段。我需要为每个句子分配一个唯一的ID，以便可以训练ML算法。我编写了自己的算法，大约有3万个重复数字。然后，我找到了这个解决方案：

def remapWord(word):
    return int.from_bytes(word.encode(), 'little')

但是显然int对于numpy太大，它抛出

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

当我尝试拟合数据时。是否有另一种方法来获取唯一ID或防止发生valueerror？

Answer 1

import hashlib 
def remap(word):
    h = hashlib.md5()
    h.update(word)
    return int(h.hexdigest(), 16))