好的,这个问题与这个问题有关:Feature hashing in R for Text classification。在R中将character vector
哈希到integer
的合理方法是什么?
我当前的代码只是采用最后的十六进制字符然后进行转换,但它似乎并没有很好地提取功能(我已经在一个非常简单的分类问题中对其进行了测试):
library(digest)
bad_hash = function(word, N){
strtoi(substr(digest(word), 28, 32), 16L) %% (N + 1)
}
bad_hash('this is sparta', 100)
# 97
谢谢!