Question

我有一个包含文本，表格和图像的巨大HTML文件（带有alt信息）。我只有这个文件的全文搜索功能，但目前我使用严格的方式与字符串比较。我想改进函数并返回前5个段落（<p></p>），以查询为基础排序的表格或图像。

我现在遇到的一些问题：

Example 1 (misspelling):

Query: "sta**kc**overflow"
Text: "....this is stackoverflow...." 

Example 2 (strict comparison):

Query: "full text searching"
Text:  "...full searching..."

我已经在Python中研究了现成的库，我找到了elasticsearch和Whoosh，但很难在HTML全文搜索的文档中找到一个例子。你有建议的任何例子或其他图书馆吗？

Answer 1

尝试BeautifulSoup - 非常容易安装，并且在Python社区中得到快速发展并且备受推崇。好文档：

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

甚至还有

   soup.get_text()

功能，以及许多其他功能。

使用Python进行全文搜索

1 个答案: