我看一下Mahout in Action书中的一个例子。它使用StaticWordValueEncoder以特征散列方式编码文本。 当使用标准分析器和探测器= 1对“文本进行神奇地向量化”进行编码时,向量为{12:1.0,54:1.0,78:1.0}。但是,我无法弄清楚哈希索引所指的是哪个词。 有没有什么方法可以将[哈希,原始单词]作为一对?例如hash 12指的是单词“text”?
答案 0 :(得分:0)
如果您已阅读Mahout in Action段落:
"连续的价值 变量直接添加到为存储分配的一个或多个位置 的价值。一个或多个位置由功能名称决定。
这种散列特征方法具有需要较少内存的独特优势 并且少了一次通过训练数据,但它可以使逆向工程变得更加困难 用于确定映射到向量位置的原始要素的向量。"
-----我不确定如何进行逆向工程(这当然是作者提出的一项艰巨任务)也许有人可能会对此有所了解。