我有漂亮的汤代码,看起来像:
for item in beautifulSoupObj.find_all('cite'):
pagelink.append(item.get_text())
问题是,我试图解析的html代码如下:
<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>
我上面的当前选择器会获取所有内容,包括strong
个标记。
因此,我该如何解析:
https://www.websiteurl.com/id=6
注意<cite>
在整个页面中多次出现,我想要提取并打印所有内容。
谢谢。
答案 0 :(得分:1)
在对象上执行.text
时,只提取文本部分很容易。
我们可以使用基本的 BeautifulSoup 方法遍历树层次结构。
有关如何执行此操作的有用说明:HERE
from bs4 import BeautifulSoup
html = '''<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>'''
soup = BeautifulSoup(html, 'html.parser')
print(soup.cite.text)
# is the same as soup.find('cite').text