在使用BeautifulSoup从页面抓取html后,我是新手,无法删除span标记。尝试使用“del links ['span'],但它返回了相同的结果。使用getText()的一些尝试失败了。显然我做错了应该很容易。帮助?
from bs4 import BeautifulSoup
import urllib.request
import re
url = urllib.request.urlopen("http://www.python.org")
content = url.read()
soup = BeautifulSoup(content)
for links in soup.find_all("span", text=re.compile(".com")):
del links['class']
print(links.)
答案 0 :(得分:3)
使用.unwrap()
method删除标记,保留其内容:
for links in soup.find_all("span", text=re.compile(".com")):
links.unwrap()
print soup
答案 1 :(得分:2)