我正在尝试构建一个应用,根据用户输入的关键字或语句在文档中查找相关句子。在大海捞针方法中使用针手动执行此操作似乎非常低效。
是否有理想的方法或库可以解决这个问题?
答案 0 :(得分:0)
处理您描述的问题的字段称为information retrieval。
执行此类查询的最简单方法是基于bag of words model - 您将文档视为向量,这样它们的余弦相似性对应于包含相似的单词。
在Python中,您可以使用scikit-learn
中的实用程序(这可能是低级别)或使用更多生产就绪工具(例如whoosh)来执行此操作 - 请参阅Python for Humanities示例教程。
如果你想深入挖掘,我建议你阅读Information Retrieval book,至少要阅读几章。