Question

我正在使用BeautifulSoup4解析网站，并试图在页面上显示的tag1, tag2, tag with space, tag-with-hypen, tag3页面中提取标签列表。标签的变化范围很广，我无法直接定位它们。尽管我付出了最大的努力，但我还是无法创建符合我需求的正则表达式。

我尝试过的一些表达方式：

r'((\w[ -]?)+(, )?){14,}'
r'(\w+):([^:]+)(?:,|$)'    # https://stackoverflow.com/a/35495165/3722806

我在这里缺少什么？

编辑：为了澄清，我不是在处理像<b>等HTML标签。我正在处理“科幻”标签中的标签。 - 小说，“等等。

Answer 1

它最终变得比我想象的更简单。

\S.*, .*

忽略空格，找到以逗号分隔的内容，加上最后一项。