Question

我有漂亮的汤代码，看起来像：

 for item in beautifulSoupObj.find_all('cite'):
            pagelink.append(item.get_text())

问题是，我试图解析的html代码如下：

<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>

我上面的当前选择器会获取所有内容，包括strong个标记。

因此，我该如何解析：

https://www.websiteurl.com/id=6

注意<cite>在整个页面中多次出现，我想要提取并打印所有内容。

谢谢。

Answer 1

在对象上执行.text时，只提取文本部分很容易。我们可以使用基本的 BeautifulSoup 方法遍历树层次结构。

有关如何执行此操作的有用说明：HERE

from bs4 import BeautifulSoup

html = '''<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>'''


soup = BeautifulSoup(html, 'html.parser')

print(soup.cite.text)
# is the same as soup.find('cite').text

从凌乱的输出美丽的汤解析网址

1 个答案: