如何使用python中的自然语言处理功能,根据过去训练有素的问题(包括问题的摘要和说明),为新的未发现的问题找到类似的问题
答案 0 :(得分:0)
如果我对您的理解正确,那么您会遇到一个新问题(查询),并且希望在数据库中查找其他类似问题(文档)。如果是这样,那么您需要的是一种找到查询和现有文档之间相似性的方法。有了它们之后,就可以对它们进行排名并选择最相关的那些。一种允许您执行此操作的方法是Latent Semantic Indexing (LSI)。
为此,您必须构造一个文档术语矩阵。您将使用现有文档并跨文档创建术语出现矩阵。这意味着您基本上记录了一个单词在文档(或其他复杂度量,例如tfidf)中出现的次数。这可以通过bag of words表示或TFIDF表示来完成。
一旦有了它,就必须处理查询,以使其与文档的格式相同。现在,您可以使用可用的查询形式,现在可以计算文档和查询之间的余弦相似度了。余弦相似度最高的是最接近的匹配。
注意:您可能要阅读的主题是信息检索,而LSI就是这样一种方法。您还应该研究其他方法。