特征哈希/雪崩效应

时间:2015-10-09 17:41:30

标签: machine-learning dimensionality-reduction

我一直在阅读有关减少维数的特征哈希的一些内容。我理解使用具有统一输出分布的散列函数(输入映射到特定值的机会与该范围中的每个其他值相同)以及雪崩/级联效应(一个小的)很重要输入的变化会产生很大的输出变化)。这些属性将确保要素之间的冲突与其频率无关。但是,我仍然不清楚雪崩效应(特定)如何影响这一点。任何人都可以解释为什么/如何重要吗?什么构成产出的“大变化”?

参考文献: http://blog.someben.com/2013/01/hashing-lang/ http://metaoptimize.com/qa/questions/6943/what-is-the-hashing-trick#6945

2 个答案:

答案 0 :(得分:0)

这个想法是,如果你有一个紧密的输入数据集群,你仍然希望散列函数能够在地图上遍布输出。结果是碰撞将是一个均匀随机的事件,而不是紧密的集群给你一连串的碰撞 - 或者与另一个紧密集群的映射发生碰撞。

"重大改变"表明你的散列函数h应该表明h(a) - h(b)随机地独立于(a-b)。

这够了吗?如果您需要更多解释,请跟进。

答案 1 :(得分:0)

雪崩效应确保输入中的微小变化(例如词语:云对云)将在输出中产生很大的变化,即,接近的输入值将产生远距离和不可预测的输出值。