试图理解潜在语义索引(LSI)

时间:2016-12-10 08:08:45

标签: python svd latent-semantic-indexing

我正在学习奇异值分解,为了达到什么目的,我可以使用这个概念和我正在阅读的书中提到SVD用于潜在语义索引。我读过很少关于LSI的文章,看起来LSI主要用于搜索引擎和类似的应用程序。我想将LSI用于我正在处理的小型数据分析项目,我不确定它对我的应用程序是否有意义。这是我正在使用的。

我有一个大约20000个游戏的列表,这个列表的2个属性是游戏类型和游戏发布的平台。我想使用LSI获取有关平台和类型属性的一些信息。

所以首先我创建了一个共生矩阵,其中行代表24种不同的流派,而列代表22种不同的平台。然后我对共生矩阵进行了SVD分解,并提取了U和V的前两列,并为U和V做了一个2d图。情节看起来像这样。

enter image description here

所以我的问题是,这可以被认为是潜在语义索引的有意义用法,还有我如何从这个图解释?例如,我们看到Genre Action和平台PC远离所有其他变量,这是否告诉我们关于这个类型和平台的任何信息?

谢谢。

1 个答案:

答案 0 :(得分:0)

SVD通常用于降低维度并发现隐藏的宏特征或模式以获得更细粒度的行为。使用这种方法几乎可以解决所有推荐系统问题。

我不确定您以前用于实现SVD的参数(如果它已真正收敛),但对图表有一些可能的解释:

  • 显然是2种类型的游戏平台(恰好是真正的控制台与PC)
  • 有些像“SPORT”这样的游戏主要在游戏机上播放,而其他像“射击游戏,角色扮演游戏,模拟游戏,冒险游戏”等游戏更像是不可知的(在两者上都相同)。
  • 我不太确定“策略”和“动作”游戏
祝你好运