正则表达式或BeautifulSoup - 不同的案例

时间:2018-04-18 13:24:19

标签: python regex beautifulsoup

我有3个我希望检索的字符串,其特点是存在两个单词:sectionfront。我对正则表达式很可怕。

contentFrame wsj-sectionfront economy_sf
contentFrame wsj-sectionfront business_sf
section-front markets

如何使用一个正则表达式匹配这两个单词?这将用于匹配由BeautifulSoup解析的html页面的内容。

更新

我想提取具有div标记的网页(https://www.wsj.com/news/business)的主体:Main Content Housing。出于某种原因,BeautifulSoup没有使用以下方法识别突出显示的类属性:

wsj_soup.find('div', attrs = {'class':'contentFrame wsj-sectionfront business_sf')
# Returns []

我试图尽可能多地留在BeautifulSoup,但如果正则表达式是我要去的方法,我将使用它。从那里我很可能会使用contents属性搜索相关的关键字,但如果有人更了解如何处理它,请分享。

1 个答案:

答案 0 :(得分:0)

处理此问题的一种方法是使用两个单独的前瞻,检查每个单词:

^(?=.*section)(?=.*front).*$

Demo