删除python中的span标记

时间:2013-06-12 13:44:13

标签: python python-3.x

在使用BeautifulSoup从页面抓取html后,我是新手,无法删除span标记。尝试使用“del links ['span'],但它返回了相同的结果。使用getText()的一些尝试失败了。显然我做错了应该很容易。帮助?

from bs4 import BeautifulSoup
import urllib.request
import re
url = urllib.request.urlopen("http://www.python.org")
content = url.read()
soup = BeautifulSoup(content)
for links in soup.find_all("span", text=re.compile(".com")):
    del links['class']
    print(links.)

2 个答案:

答案 0 :(得分:3)

使用.unwrap() method删除标记,保留其内容:

for links in soup.find_all("span", text=re.compile(".com")):
    links.unwrap()

print soup

答案 1 :(得分:2)

根据您要执行的操作,您可以使用unwrap删除标记(事实上,按内容替换元素)或decompose删除元素及其内容。