针对特定标签内特定文本内容的网页刮痧美容汤

时间:2017-01-12 09:35:29

标签: python web-scraping beautifulsoup python-3.5

我在Python中使用bs4通过查找常规标记中的特定文本来抓取Web内容。具体来说:

HTML

...
<h3>Content</h3>
<ul>...</ul>
...

所以,无论如何,我可以指示bs4查找带有特定文字的标题&#34; Content&#34;这样我就能识别锚并获得内容?

我试过这个但是没有用:

soup2.find('h3', {'text': 'Content'}).findNext('ul').text)

非常感谢。

1 个答案:

答案 0 :(得分:1)

使用string filter

soup.find('h3', string='Content')

最简单的过滤器是一个字符串。将字符串传递给搜索方法,Beautiful Soup会针对该字符串执行匹配

这将是完全匹配,如果您想要找到包含这个字符串的标签, 使用正则表达式过滤器:

soup.find('h3', re.compile=('Content'))