如何在Mahout中使用StaticWordValueEncoder时获取哈希值

时间:2013-12-06 18:07:12

标签: mahout

我看一下Mahout in Action书中的一个例子。它使用StaticWordValueEncoder以特征散列方式编码文本。 当使用标准分析器和探测器= 1对“文本进行神奇地向量化”进行编码时,向量为{12:1.0,54:1.0,78:1.0}。但是,我无法弄清楚哈希索引所指的是哪个词。 有没有什么方法可以将[哈希,原始单词]作为一对?例如hash 12指的是单词“text”?

1 个答案:

答案 0 :(得分:0)

如果您已阅读Mahout in Action段落:

"连续的价值 变量直接添加到为存储分配的一个或多个位置 的价值。一个或多个位置由功能名称决定。

这种散列特征方法具有需要较少内存的独特优势 并且少了一次通过训练数据,但它可以使逆向工程变得更加困难 用于确定映射到向量位置的原始要素的向量。"

-----我不确定如何进行逆向工程(这当然是作者提出的一项艰巨任务)也许有人可能会对此有所了解。