我正在使用BeautifulSoup4解析网站,并试图在页面上显示的tag1, tag2, tag with space, tag-with-hypen, tag3
页面中提取标签列表。标签的变化范围很广,我无法直接定位它们。尽管我付出了最大的努力,但我还是无法创建符合我需求的正则表达式。
我尝试过的一些表达方式:
r'((\w[ -]?)+(, )?){14,}'
r'(\w+):([^:]+)(?:,|$)' # https://stackoverflow.com/a/35495165/3722806
我在这里缺少什么?
编辑:为了澄清,我不是在处理像<b>
等HTML标签。我正在处理“科幻”标签中的标签。 - 小说,“等等。
答案 0 :(得分:-1)
它最终变得比我想象的更简单。
\S.*, .*
忽略空格,找到以逗号分隔的内容,加上最后一项。