让我们说你有一堆书的描述。什么是使这个文本相互比较的技术,所以我可以将具有类似主题的书籍分组。
答案 0 :(得分:3)
有很多算法和技术可用于确定两个文本单元的similarity。如果你不关心这个含义,只是对两个字符串的词汇相似性感兴趣,那么string similarity就有很多技巧,其中Levenshtein距离是最着名的,如果不是表现最好的。但是,您明确声明您需要语义相似性,因此latent semantic analysis上的WikiPedia页面将为您提供一个良好的起点。非常粗略地说,LSA查找的文档包含不太常用的不太常用的术语(单词或单词短语),并根据非常用术语的使用频率来聚类文档。
答案 1 :(得分:0)
如果你想要在句子级别进行比较,我会建议Jaccard的相似系数。将每个句子视为最小单位。您可以根据需要深入查看单词。 这并没有真正解决语义问题。问题的一部分,但作为一个良好的字符串相似性算法。