我正在尝试使用re模块解析网站上的一些数据。问题是我是模块的新手,不确定如何准确地解析数据。
我想解析的是" href =" 。我需要在代码中的括号中输入什么内容?
body_links = re.findall(r'<a>()</a>', str(resp1Data))
答案 0 :(得分:1)
而是使用python的beautifulsoup包。对于解析Web内容非常有用。
示例:
from BeautifulSoup import BeautifulSoup
html = '''<a href="some_url">next</a><span class="class"><a href="another_url">later</a></span>'''
soup = BeautifulSoup(html)
for a in soup.find_all('a', href=True):
print a['href']
这将为您提供来自给定html的所有超链接。 希望这有帮助
答案 1 :(得分:0)
您正在寻找的代码是:
re.findall(r'href="(.+?)"', str(resp1Data))
这会在href=
之后和""
之间直接匹配所有内容。 .
代表&#34;任何字符&#34;,+
代表&#34;一个或多个事件&#34;和?
代表&#34;非贪婪& #34;,表示将使用最短的匹配。
请阅读正则表达式,这是非常基本和重要的事情。