我在Python中使用bs4通过查找常规标记中的特定文本来抓取Web内容。具体来说:
HTML
...
<h3>Content</h3>
<ul>...</ul>
...
所以,无论如何,我可以指示bs4查找带有特定文字的标题&#34; Content&#34;这样我就能识别锚并获得内容?
我试过这个但是没有用:
soup2.find('h3', {'text': 'Content'}).findNext('ul').text)
非常感谢。
答案 0 :(得分:1)
soup.find('h3', string='Content')
最简单的过滤器是一个字符串。将字符串传递给搜索方法,Beautiful Soup会针对该字符串执行匹配。
这将是完全匹配,如果您想要找到包含这个字符串的标签, 使用正则表达式过滤器:
soup.find('h3', re.compile=('Content'))