Hello StackOverflow社区请查看以下打印内容:
如您所见,我正在捕获<title>
和</title>
括号之间的所有内容,但我想避免捕获文本中可能存在的任何逗号。
当前,我得到:
Kincrome K1500G - Tool Workshop Contour 472 Piece 15 Drawer 1/4", 3/8" & 1/2" Drive Monster Green
我想获得什么:
Kincrome K1500G - Tool Workshop Contour 472 Piece 15 Drawer 1/4" 3/8" & 1/2" Drive Monster Green
我需要一个单行的regex命令来为我执行此操作。有任何想法吗?
这是我使用的regex命令:
(?<=<title\>)(.*?)(?=\s*\<)
示例文本为:
<title>Kincrome K1500G - Tool Workshop Contour 472 Piece 15 Drawer 1/4", 3/8" & 1/2" Drive Monster Green</title>
我正在使用Kantu浏览器自动化来提取某些网页的标题。请记住,我正在抓取整个网页的HTML。
如果无法执行此操作,那么匹配直到第一个逗号然后返回,例如返回以下内容:
Kincrome K1500G - Tool Workshop Contour 472 Piece 15 Drawer 1/4"
谢谢您的时间。
答案 0 :(得分:1)
正如评论中提到的,正则表达式不能更改匹配的文本,它只能匹配某些内容。
如果您愿意在第一个逗号处停止比赛,而不是将所有其余的逗号都删除掉,则可以使用以下方法:
(?<=<title\>)(.*?)(?=(,|\s*<\/title>))