如何从<a> string in one line?</a>中删除链接

时间:2015-03-02 23:58:36

标签: python regex python-2.7 beautifulsoup

我正在使用网络抓取工具,它有许多不同的变量,因此将每个变量保持在一行对我来说非常重要。我正在处理的当前变量我已经解决了这个问题:

<a href="http://website.com/example/123" target="_blank">Example</a>

有什么简单的方法可以简单地让网站(在这种情况下为http://website.com/example/123)在一行代码中被删除吗?

我目前正在使用urllib,re和BeautifulSoup,所以这些库中的任何一个都没问题。我尝试添加

.find('a', attrs={'href': re.compile("^http://")})

到我的行的末尾,但它使输出没有返回。

1 个答案:

答案 0 :(得分:2)

我相信你所要做的就是yourVarName [&#39; href&#39;]:

from bs4 import BeautifulSoup

html = '''<a href="http://website.com/example/123" target="_blank">Example</a>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']

找到网址:http://website.com/example/123

https://stackoverflow.com/a/5815888/3920284