全部删除<a> tags</a>

时间:2012-10-24 21:46:36

标签: python python-2.7 beautifulsoup

我抓了一个包含网址的容器,例如:

<a href="url">text</a>

我需要删除所有内容,只剩下文字 ...

import urllib2, sys
from bs4 import BeautifulSoup

site = "http://mysite.com"
page = urllib2.urlopen(site)
soup = BeautifulSoup(page)

有可能吗?

2 个答案:

答案 0 :(得分:6)

您可以使用Bleach

执行此操作

PyPi - Bleach

>>> import bleach

>>> bleach.clean('an <script>evil()</script> example')
u'an &lt;script&gt;evil()&lt;/script&gt; example'

>>> bleach.linkify('an http://example.com url')
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url

>>> bleach.delinkify('a <a href="http://ex.mp">link</a>')
u'a link'

答案 1 :(得分:2)

soup = BeautifulSoup(page)
anchors = soup.findAll('a')
for anchor in anchors:
  anchor.replaceWithChildren()