使用regex / python3 / bs4从页面中提取包含逗号分隔标记的字符串

时间:2018-04-23 10:13:02

标签: python regex beautifulsoup

我正在使用BeautifulSoup4解析网站,并试图在页面上显示的tag1, tag2, tag with space, tag-with-hypen, tag3页面中提取标签列表。标签的变化范围很广,我无法直接定位它们。尽管我付出了最大的努力,但我还是无法创建符合我需求的正则表达式。

我尝试过的一些表达方式:

r'((\w[ -]?)+(, )?){14,}'
r'(\w+):([^:]+)(?:,|$)'    # https://stackoverflow.com/a/35495165/3722806

我在这里缺少什么?

编辑:为了澄清,我不是在处理像<b>等HTML标签。我正在处理“科幻”标签中的标签。 - 小说,“等等。

1 个答案:

答案 0 :(得分:-1)

它最终变得比我想象的更简单。

\S.*, .*

忽略空格,找到以逗号分隔的内容,加上最后一项。