lsi的问题

时间:2010-01-20 22:34:37

标签: math latent-semantic-indexing

我正在使用Latent语义分析来进行文本相似性。我有两个问题。

  1. 如何选择K值进行尺寸缩减?

  2. 我在很多地方读到了LSI用于汽车和汽车等类似意义词的地方。这怎么可能???我在这里错过了什么神奇的步骤?

2 个答案:

答案 0 :(得分:1)

  1. k 的典型选择是300.理想情况下,您可以根据使用缩减向量的评估指标设置 k 。例如,如果您要对文档进行聚类,则可以选择最大化聚类解决方案得分的 k 。如果您没有基准来衡量,那么我会根据您的数据集的大小设置 k 。如果您只有100个文档,那么您不会期望需要几百个潜在因子来表示它们。同样,如果你有一百万份文件,那么300可能太小了。但是,根据我的经验,如果 k 不是太小(即 k =),那么得到的向量对于 k 中的大变化相当健壮。 300和 k = 1000)一样。

  2. 您可能会将LSI与Latent Semantic Analysis(LSA)混淆。它们是非常相关的技术,区别在于LSI在文档上运行,而LSA在文字上运行。两种方法都使用相同的输入(术语x文档矩阵)。如果您想尝试它们,有几个很好的开源LSA实现。 LSA维基百科页面有一个完整的列表。

答案 1 :(得分:0)

  1. 尝试[1..n]中的几个不同的值,看看你想要完成的任何任务有效吗

  2. 创建一个单词 - 单词相关矩阵[即单元格(i,j)保存其中(i,j)共同出现的文档数量]并使用类似PCA的内容