我正在尝试按序列向量对文档进行分类。基本上,我有一个词汇量(超过5000字)。每个文档都转换为整数向量,以便向量中的每个元素对应词汇表中单词的位置。
例如,如果词汇是[hello,how,are,you,today]并且文档是“hello you”那么我将得到向量:[1 4]
。
“你好吗”的另一份文件将导致[2 3 4]
。
现在我想要的是评估第一和第二矢量之间的相似性。在这里你可以看到这些向量的长度不同。此外,直接比较它们可能没有意义,因为它们代表了单词序列。这种情况不同于二进制(bag-of-word)向量,它考虑文档中单词的出现(如果出现,则为1,否则为0),以及考虑单词中的单词频率的频率(单词计数)向量。具有给定词汇的文档。
你能给我一个建议吗?
答案 0 :(得分:1)
Jaccard similarity通常用于比较集合的相似性(在您的情况下,文本)。文本为n-grammed(带状疱疹),然后locality sensitive hashing用于确定其Jaccard相似度。
有一整个专门的领域 - 谷歌是你的朋友!