潜在语义索引(LSI)是统计分类算法吗?

时间:2009-10-27 22:40:44

标签: algorithm semantic-web information-retrieval classification

潜在语义索引(LSI)是统计分类算法吗?为什么或者为什么不?

基本上,我试图找出为什么the Wikipedia page for Statistical Classification没有提到LSI。我刚刚开始讨论这些问题,我试图了解所有不同的分类方法是如何相互关联的。

4 个答案:

答案 0 :(得分:5)

不,他们并不完全相同。统计分类旨在尽可能干净地将项目分类 - 例如,对项目X是否更像是A组或B组中的项目做出清晰的决定。

LSI旨在显示项目相似或不同的程度,主要是查找与指定项目具有相似程度的项目。虽然这是类似的,但它并不完全相同。

答案 1 :(得分:3)

LSI / LSA最终是降维的技术,通常与最近邻算法结合使其成为分类系统。因此,它本身就是一种使用SVD以较低维度“索引”数据的方式。

答案 2 :(得分:1)

您是否了解过LSI on Wikipedia?它说它使用矩阵分解(SVD),而后者有时也用于分类。

答案 3 :(得分:1)

机器学习的主要区别在于“监督”和“无监督”建模。

通常,“统计分类”一词指的是监督模型,但并非总是如此。

通过监督方法,训练集包含一个“地面实况”标签,您可以构建一个模型进行预测。在评估模型时,目标是预测真实标签的最佳猜测(或概率分布),这在评估时是不会的。通常有一个绩效指标,而且很清楚正确与错误的答案是什么。

无监督分类方法试图将大量数据点聚类成较少数量的“相似”类别,这些数据点可能看起来以复杂的方式变化。每个类别中的数据应该以某种“有趣”或“深入”的方式相似。由于没有“基本事实”,你无法评估“对或错”,而是“更多”与“不那么”有趣或有用。

类似的评估时间你可以将新的例子放入可能的一个集群中(清晰的分类)或者给出某种加权来量化集群的“原型”之类的相似或不同。

因此,在某些方面,有监督和无监督的模型可以产生一些“预测”,预测类/集群标签,但它们本质上是不同的。

无监督模型的目标通常是为后续的监督模型提供更智能,更强大的紧凑输入。