绝对网址的正则表达式

时间:2015-10-09 21:01:52

标签: python regex

我正在搜索与Python的re模块兼容的正则表达式,用于查找HTML文档中的所有网址,除了能够检查网址是否为0之外,我找不到它有效或无效(使用match方法)。我想做简单的

import requests
html_response = requests.get('http://example.com').text
urls = url_pattern.findall(html_response)

我认为需要正则表达式(如果存在的话)足够复杂,可以考虑一堆特殊的url案例,因此它不能成为一些oneline代码。

1 个答案:

答案 0 :(得分:4)

使用 BeautifulSoup 。它使用起来很简单,并允许您使用HTML解析页面。

请参阅此回答How to extract URLs from an HTML page in Python