如何获取包含特定文本的类或ID的DIV

时间:2015-01-10 11:08:20

标签: python python-3.x beautifulsoup

我从网站上抓取了一些HTML

<div>
 <div id="content1">
 </div>
 <div id="content3">
 </div>
 <div id="content22">
 </div>
</div>

如何迭代ID为content的所有DIV?

1 个答案:

答案 0 :(得分:2)

最简单的方法是使用CSS selector

soup.select('div[id^=content]')

^=语法指定id属性值应以<{1}} 开始。

您可以使用regular expression filter作为element.find_all()content参数传入相同的结果:

id

演示:

import re

soup.find_all('div', id=re.compile('^content'))