长度归一化有哪些应用?

时间:2014-01-29 22:30:04

标签: nlp normalization

我找到了一些关于Length Normalization的信息。我发现它只在搜索引擎的上下文中提到过。人们是否将它用于不同的文字目的? (请原谅我的无知。我真的在寻找它的其他用途,但谷歌一直在混淆术语“规范化”与“缩放”......)。

1 个答案:

答案 0 :(得分:0)

您在问题中提供的链接已经提到了使用长度规范化的一个原因:避免在文档向量中使用高频率计数。这会大大影响文档排名。当然,直接应用这种方法是基于查询的文档检索。

还有其他特定于算法的应用程序。例如,如果你想使用向量之间的余弦相似性来聚类文档:简单的聚类算法(如k-means)可能不会收敛,除非向量都在一个球体上,即所有向量具有相同的长度。