我正在搜索与Python的re
模块兼容的正则表达式,用于查找HTML文档中的所有网址,除了能够检查网址是否为0之外,我找不到它有效或无效(使用match
方法)。我想做简单的
import requests
html_response = requests.get('http://example.com').text
urls = url_pattern.findall(html_response)
我认为需要正则表达式(如果存在的话)足够复杂,可以考虑一堆特殊的url案例,因此它不能成为一些oneline代码。
答案 0 :(得分:4)
使用 BeautifulSoup 。它使用起来很简单,并允许您使用HTML解析页面。