Question

我正在搜索与Python的re模块兼容的正则表达式，用于查找HTML文档中的所有网址，除了能够检查网址是否为0之外，我找不到它有效或无效（使用match方法）。我想做简单的

import requests
html_response = requests.get('http://example.com').text
urls = url_pattern.findall(html_response)

我认为需要正则表达式（如果存在的话）足够复杂，可以考虑一堆特殊的url案例，因此它不能成为一些oneline代码。

Answer 1

使用 BeautifulSoup 。它使用起来很简单，并允许您使用HTML解析页面。