我找到了一些关于Length Normalization的信息。我发现它只在搜索引擎的上下文中提到过。人们是否将它用于不同的文字目的? (请原谅我的无知。我真的在寻找它的其他用途,但谷歌一直在混淆术语“规范化”与“缩放”......)。
答案 0 :(得分:0)
您在问题中提供的链接已经提到了使用长度规范化的一个原因:避免在文档向量中使用高频率计数。这会大大影响文档排名。当然,直接应用这种方法是基于查询的文档检索。
还有其他特定于算法的应用程序。例如,如果你想使用向量之间的余弦相似性来聚类文档:简单的聚类算法(如k-means)可能不会收敛,除非向量都在一个球体上,即所有向量具有相同的长度。