Question

我有一个网页来源，里面有很多div和各自的id。

例如：

<div id="abc_answer">Some content</div>
<div id="abcd_answer">Some content</div>
<div id="ggg">Some Content</div>

我想只提取在所有给定div的id中具有“_answer”子字符串的信息。我想用beautifulsoup

做这件事

Answer 1

一种选择是使用.select() method并传入attribute selector [id$=_answer]，这将选择id属性值以子字符串_answer结尾的元素：

soup.select('div[id$=_answer]')

输出：

> [<div id="abc_answer">Some answer</div>, <div id="abcd_answer">Some answer</div>]

Answer 2

以下是解决方案：

bsObj = BeautifulSoup(some.text, "html.parser");
found = bsObj.findAll("div", id=lambda x: x and x.endswith('_answer'))

Answer 3

您可以将函数传递给可以进行任何检查的find_all：

soup.find_all(lambda tag:    tag.name=='div' \
                         and tag.has_attr('id') \
                         and tag['id'].endswith("_answer")))
#[<div id="abc_answer">Some content</div>, 
# <div id="abcd_answer">Some content</div>]

确保在查看其值之前检查id是否存在。

如何在Beautiful Soup中只获得id以某个值结尾的div？

3 个答案: