我将句子存储为从文档中提取的字符串。我想将标准余弦相似度应用于句子。我该怎么做呢?
答案 0 :(得分:0)
你已经拥有了 formula on wikipedia。每个Ai
都是一个单词,因此首先需要计算文档中单词的频率。您需要能够创建单词出现的地图。然后用一个单词矢量表示每个句子,你可以应用公式。
答案 1 :(得分:0)
首先,请阅读Term-Document matrix
然后,使用Cosine Similarity calculator
进行余弦计算如果您对文本挖掘感兴趣,请转到SVD,最后转到Latent Semantic Analysis