我提供了数百种使用所有不同语言(unicode)的文本片段。我需要为每个句子分配一个唯一的ID,以便可以训练ML算法。我编写了自己的算法,大约有3万个重复数字。然后,我找到了这个解决方案:
def remapWord(word):
return int.from_bytes(word.encode(), 'little')
但是显然int对于numpy太大,它抛出
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
当我尝试拟合数据时。是否有另一种方法来获取唯一ID或防止发生valueerror?
答案 0 :(得分:0)
import hashlib
def remap(word):
h = hashlib.md5()
h.update(word)
return int(h.hexdigest(), 16))