Question

我在Python中使用bs4通过查找常规标记中的特定文本来抓取Web内容。具体来说：

HTML

...
<h3>Content</h3>
<ul>...</ul>
...

所以，无论如何，我可以指示bs4查找带有特定文字的标题＆＃34; Content＆＃34;这样我就能识别锚并获得内容？

我试过这个但是没有用：

soup2.find('h3', {'text': 'Content'}).findNext('ul').text)

非常感谢。

Answer 1

soup.find('h3', string='Content')

最简单的过滤器是一个字符串。将字符串传递给搜索方法，Beautiful Soup会针对该字符串执行匹配。

这将是完全匹配，如果您想要找到包含这个字符串的标签，使用正则表达式过滤器：

soup.find('h3', re.compile=('Content'))