我使用BeautifulSoup轻松抓取。
我已经发现网页中有超过5 div
我要废弃。他们的名字不同但有模式。
这些div是:
divnewthing
divnew
divnewstring
等
因此模式是divnew*
正则表达式。
我正在使用:
soup.find('div', {"class": "divnew"})
此刻。
我想以某种方式使用正则表达式。任何人都可以帮助我吗?
答案 0 :(得分:3)
是的,您也可以传递regular expression pattern:
soup.find('div', {"class": re.compile("^divnew")})
或者,一个函数,检查类名是否以divnew
开头:
soup.find('div', {"class": lambda x: x and x.startswith("divnew"))})
或者,使用CSS selector:
soup.select("div[class^=divnew]")