我了解散列技巧的原理,并在规范我的数据(单词内容)时使用它。
我从哈希过程中获得的结果在[0;N]
范围内。
我们知道模型训练对[0;1]
范围内的数据更有效,然后我尝试对哈希数据进行规范化。那时我不确定自己的逻辑。
我不应该直接从[0;1]
范围恢复哈希数据吗?在这种情况下,我不知道该怎么做...还是应该使用标准化函数,如我所知?在这种情况下,推荐哪个?
这是我的哈希过程:我使用的是hashCode()
java函数,该函数的结果范围为[0;N]
。
int hashedString = word.toString().hashCode() % N + N;
关于规范化过程:
我目前正在使用DeepLearning4j的Normalize.Standardize
,这大约为我提供了[-2;2]
的范围。