Question

我正在尝试使用re模块解析网站上的一些数据。问题是我是模块的新手，不确定如何准确地解析数据。

我想解析的是＆＃34; href =＆＃34; 。我需要在代码中的括号中输入什么内容？

body_links = re.findall(r'<a>()</a>', str(resp1Data))

Answer 1

而是使用python的beautifulsoup包。对于解析Web内容非常有用。

示例：

from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a><span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print a['href']

这将为您提供来自给定html的所有超链接。希望这有帮助

Answer 2

您正在寻找的代码是：

re.findall(r'href="(.+?)"', str(resp1Data))

这会在href=之后和""之间直接匹配所有内容。 .代表＆＃34;任何字符＆＃34;，+代表＆＃34;一个或多个事件＆＃34;和?代表＆＃34;非贪婪＆＃34;，表示将使用最短的匹配。

请阅读正则表达式，这是非常基本和重要的事情。

使用re模块

2 个答案: