应用错误收集

Python提供了NLTK库，它是一个庞大的文本和语料库资源，以及大量的文本挖掘和处理方法。有没有什么方法可以根据它们为可能的匹配传达的含义来比较句子？那就是一个聪明的句子匹配器？

例如， giggling at bad jokes 和 I like to laugh myself silly at poor jokes 等句子。两者都表达了相同的含义，但句子没有远程匹配（单词不同，Levenstein Distance会严重失败！）。

现在假设我们有一个API，它公开了找到的here等功能。因此，基于此，我们有机制可以发现 giggle 和 laugh 这两个词在其传达的意义上是匹配的。 Bad 与 poor 不匹配，因此我们可能需要添加更多图层（就像它们在< strong> joke ，因为 bad joke 通常与 poor joke 相同，但 {{1} } 与 bad person 不同！）。

一个主要的挑战是丢弃那些不会改变句子含义的东西。因此，算法应返回第一句与此之间相同程度的匹配度： poor person

所以有了这个，有没有这样的算法已经构思出来了？或者我必须发明轮子？

根据句子的含义比较句子

1 个答案: