使用用户查询进行递归文本搜索

时间:2018-08-14 23:30:00

标签: python text full-text-search

我正在处理通过元搜索引擎使用标准的(类似于Google的)用户查询(运算符:,或者不包括引号,括号等)通过纯搜索引擎检索的纯文本文档(带有一些html标签)。

我需要对检索到的文本重新运行这些查询,以排除主要文本不包含搜索内容的文章。

我目前将数据存储在pandas数据框中,其中查询位于一列中,并且对应的文档文本(每个文档一个记录/行)。

我想知道解决此问题以获得记录方面的二进制结果(相关/不相关)的最佳方法是什么。

到目前为止,我已经研究了Whoosh,Lucene,Elasticsearch,nltk等。我有点担心这些解决方案可能对我的应用程序没有太大用处,因此想在实施之前就获得建议。

任何帮助/说明都将非常有用。

0 个答案:

没有答案