应用错误收集

如何在语义上比较文本

时间：2012-09-25 18:25:42

标签： computer-science semantics

让我们说你有一堆书的描述。什么是使这个文本相互比较的技术，所以我可以将具有类似主题的书籍分组。

2 个答案:

答案 0 :(得分：3)

有很多算法和技术可用于确定两个文本单元的similarity。如果你不关心这个含义，只是对两个字符串的词汇相似性感兴趣，那么string similarity就有很多技巧，其中Levenshtein距离是最着名的，如果不是表现最好的。但是，您明确声明您需要语义相似性，因此latent semantic analysis上的WikiPedia页面将为您提供一个良好的起点。非常粗略地说，LSA查找的文档包含不太常用的不太常用的术语（单词或单词短语），并根据非常用术语的使用频率来聚类文档。

答案 1 :(得分：0)

如果你想要在句子级别进行比较，我会建议Jaccard的相似系数。将每个句子视为最小单位。您可以根据需要深入查看单词。这并没有真正解决语义问题。问题的一部分，但作为一个良好的字符串相似性算法。