使用Python进行全文搜索

时间:2014-06-03 15:52:04

标签: python elasticsearch full-text-search whoosh

我有一个包含文本,表格和图像的巨大HTML文件(带有alt信息)。我只有这个文件的全文搜索功能,但目前我使用严格的方式与字符串比较。我想改进函数并返回前5个段落(<p></p>),以查询为基础排序的表格或图像。

我现在遇到的一些问题:

Example 1 (misspelling):

Query: "sta**kc**overflow"
Text: "....this is stackoverflow...." 

Example 2 (strict comparison):

Query: "full text searching"
Text:  "...full searching..."

我已经在Python中研究了现成的库,我找到了elasticsearchWhoosh,但很难在HTML全文搜索的文档中找到一个例子。你有建议的任何例子或其他图书馆吗?

1 个答案:

答案 0 :(得分:-1)

尝试BeautifulSoup - 非常容易安装,并且在Python社区中得到快速发展并且备受推崇。好文档:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

甚至还有

   soup.get_text()

功能,以及许多其他功能。