我正在使用网络抓取工具,它有许多不同的变量,因此将每个变量保持在一行对我来说非常重要。我正在处理的当前变量我已经解决了这个问题:
<a href="http://website.com/example/123" target="_blank">Example</a>
有什么简单的方法可以简单地让网站(在这种情况下为http://website.com/example/123
)在一行代码中被删除吗?
我目前正在使用urllib,re和BeautifulSoup,所以这些库中的任何一个都没问题。我尝试添加
.find('a', attrs={'href': re.compile("^http://")})
到我的行的末尾,但它使输出没有返回。
答案 0 :(得分:2)
我相信你所要做的就是yourVarName [&#39; href&#39;]:
from bs4 import BeautifulSoup
html = '''<a href="http://website.com/example/123" target="_blank">Example</a>'''
soup = BeautifulSoup(html)
for a in soup.find_all('a', href=True):
print "Found the URL:", a['href']