标签: python regex
我有一长串被分号分解的文本,因此我有一个捕获[^\;]+的正则表达式。但是,这是错误的,因为内容包含HTML撇号(')。
[^\;]+
'
除非分号是HTML撇号的一部分,否则我怎样才能编写一个除了分号以外的所有内容的正则表达式?
答案 0 :(得分:4)
(&\S+?;|[^;])+
将HTML实体与单个字符匹配。