使用Beautifulsoup的类的正则表达式

时间:2015-06-23 13:41:36

标签: python html regex beautifulsoup html-parsing

我使用BeautifulSoup轻松抓取。

我已经发现网页中有超过5 div我要废弃。他们的名字不同但有模式。

这些div是:

divnewthing
divnew
divnewstring

因此模式是divnew*正则表达式。

我正在使用:

soup.find('div', {"class": "divnew"})

此刻。

我想以某种方式使用正则表达式。任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:3)

是的,您也可以传递regular expression pattern

soup.find('div', {"class": re.compile("^divnew")})

或者,一个函数,检查类名是否以divnew开头:

soup.find('div', {"class": lambda x: x and x.startswith("divnew"))})

或者,使用CSS selector

soup.select("div[class^=divnew]")