Carrot2文档的相似性以及tf-idf矩阵中的有序文档索引如何?

时间:2015-01-06 14:40:56

标签: matrix indexing document documents carrot2

我正在尝试使用胡萝卜确定两个文档之间的相似性。是否有可能直接从框架中获得这种相似性?

此外,我一直在研究tf-idf矩阵,并意识到行对应于所有单词和列到文档。但是,如何识别哪个文档对应哪个列?

例如,假设一个文档列表,列顺序将是列表中文档的顺序?

例如:

列出docs = {doc1,doc2,doc3}

第0列= doc1 Coluns 1 = doc2

...

这是吗?

1 个答案:

答案 0 :(得分:0)

Carrot2没有使用传统的文档 - 文档相似性概念,所以你不会在那里找到它。您确实可以使用术语 - 文档矩阵来计算各种文档 - 文档相似度。

您认为术语 - 文档矩阵的列与输入列表中的文档的顺序相同是正确的。您可以查看source code以清除任何其他疑问。