Python中的自然语言处理

时间:2018-08-14 05:56:01

标签: nlp

如何使用python中的自然语言处理功能,根据过去训练有素的问题(包括问题的摘要和说明),为新的未发现的问题找到类似的问题

1 个答案:

答案 0 :(得分:0)

如果我对您的理解正确,那么您会遇到一个新问题(查询),并且希望在数据库中查找其他类似问题(文档)。如果是这样,那么您需要的是一种找到查询和现有文档之间相似性的方法。有了它们之后,就可以对它们进行排名并选择最相关的那些。一种允许您执行此操作的方法是Latent Semantic Indexing (LSI)

为此,您必须构造一个文档术语矩阵。您将使用现有文档并跨文档创建术语出现矩阵。这意味着您基本上记录了一个单词在文档(或其他复杂度量,例如tfidf)中出现的次数。这可以通过bag of words表示或TFIDF表示来完成。

一旦有了它,就必须处理查询,以使其与文档的格式相同。现在,您可以使用可用的查询形式,现在可以计算文档和查询之间的余弦相似度了。余弦相似度最高的是最接近的匹配。

注意:您可能要阅读的主题是信息检索,而LSI就是这样一种方法。您还应该研究其他方法。