我有一个包含文本,表格和图像的巨大HTML文件(带有alt信息)。我只有这个文件的全文搜索功能,但目前我使用严格的方式与字符串比较。我想改进函数并返回前5个段落(<p></p>
),以查询为基础排序的表格或图像。
我现在遇到的一些问题:
Example 1 (misspelling):
Query: "sta**kc**overflow"
Text: "....this is stackoverflow...."
Example 2 (strict comparison):
Query: "full text searching"
Text: "...full searching..."
我已经在Python中研究了现成的库,我找到了elasticsearch和Whoosh,但很难在HTML全文搜索的文档中找到一个例子。你有建议的任何例子或其他图书馆吗?
答案 0 :(得分:-1)
尝试BeautifulSoup - 非常容易安装,并且在Python社区中得到快速发展并且备受推崇。好文档:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
甚至还有
soup.get_text()
功能,以及许多其他功能。