RapidMiner:计算文档相似度

时间:2016-05-18 14:28:28

标签: rapidminer

我使用Rapidminer来计算文档之间的相似性。我在 Java Application 中使用此过程。

enter image description here

此过程计算每个文档与数据集中每个其他文档的相似度。我不想计算每个文档之间的相似性。 我只想计算一个选定文档与所有其他文档的相似性。

处理文档为我提供了一个带有 tf-idf 分数的单词向量。
数据与相似性计算这些商家之间的余弦相似度

所以基本上我需要计算一个选定文档的余弦相似度与数据集中的每个其他文档。

RapidMiner有可能吗?任何见解都会有所帮助。谢谢。

修改
解答:

enter image description here

1 个答案:

答案 0 :(得分:0)

Cross Distances运营商会更好。它需要两个输入,这两个输入都是示例集。第一个可以是所有文档的功能列表,第二个可以是单个文档的功能列表。结果是一个带有距离计算的新示例集。如果您对此示例集进行排序(运算符可能已经返回已排序的列表,以防您可以使用Sort)来查找此最小值并使用Filter Example Range来选择它,您将获得详细信息。最近的文件。