我有3个我希望检索的字符串,其特点是存在两个单词:section
和front
。我对正则表达式很可怕。
contentFrame wsj-sectionfront economy_sf
contentFrame wsj-sectionfront business_sf
section-front markets
如何使用一个正则表达式匹配这两个单词?这将用于匹配由BeautifulSoup解析的html页面的内容。
更新
我想提取具有div
标记的网页(https://www.wsj.com/news/business)的主体:Main Content Housing。出于某种原因,BeautifulSoup没有使用以下方法识别突出显示的类属性:
wsj_soup.find('div', attrs = {'class':'contentFrame wsj-sectionfront business_sf')
# Returns []
我试图尽可能多地留在BeautifulSoup,但如果正则表达式是我要去的方法,我将使用它。从那里我很可能会使用contents
属性搜索相关的关键字,但如果有人更了解如何处理它,请分享。