计算mahout中的余弦相似度

时间:2012-01-05 04:33:21

标签: text-processing similarity mahout

为了找到两个文件之间的相似性,我计划采用mahout来执行这项任务。

该过程包括:

  1. 将doc转换为tf-idf
  2. 删除停用词(使搜索生效)
  3. 运行余弦相似度
  4. 给出相似度
  5. 我计划在mahout中实现这一点。我是mahout的初学者,有人可以通过一些教程来帮助我执行此操作并告诉我这是否是计算文档之间相似性的有效方法

1 个答案:

答案 0 :(得分:2)

您无需执行任何操作。使用seqdirectory和seq2sparse来矢量化您的数据。之后,您可以使用RowSimilarityJob来计算成对余弦相似度。