句子的过渡概率矩阵计算

时间:2012-02-06 10:50:42

标签: java similarity cosine tf-idf

我将句子存储为从文档中提取的字符串。我想将标准余弦相似度应用于句子。我该怎么做呢?

2 个答案:

答案 0 :(得分:0)

你已经拥有了 formula on wikipedia。每个Ai都是一个单词,因此首先需要计算文档中单词的频率。您需要能够创建单词出现的地图。然后用一个单词矢量表示每个句子,你可以应用公式。

答案 1 :(得分:0)

首先,请阅读Term-Document matrix

然后,使用Cosine Similarity calculator

进行余弦计算

如果您对文本挖掘感兴趣,请转到SVD,最后转到Latent Semantic Analysis