标签: text-processing similarity mahout
为了找到两个文件之间的相似性,我计划采用mahout来执行这项任务。
该过程包括:
我计划在mahout中实现这一点。我是mahout的初学者,有人可以通过一些教程来帮助我执行此操作并告诉我这是否是计算文档之间相似性的有效方法
答案 0 :(得分:2)
您无需执行任何操作。使用seqdirectory和seq2sparse来矢量化您的数据。之后,您可以使用RowSimilarityJob来计算成对余弦相似度。