R字符散列函数

时间:2014-10-19 15:32:56

标签: r hash text-classification

好的,这个问题与这个问题有关:Feature hashing in R for Text classification。在R中将character vector哈希到integer的合理方法是什么? 我当前的代码只是采用最后的十六进制字符然后进行转换,但它似乎并没有很好地提取功能(我已经在一个非常简单的分类问题中对其进行了测试):

library(digest)
bad_hash = function(word, N){
    strtoi(substr(digest(word), 28, 32), 16L) %% (N + 1)
}

bad_hash('this is sparta', 100)
# 97

谢谢!

0 个答案:

没有答案