我的200个html页面中的每一个都有这个标签之王。
<title>Top Cars | My number | (en),resources</title>
<title>Top Cars | My number | (en),prices</title>
所以,我需要一个正则表达式才能找到包含单词prices
我试试这个:<title>(\w+)prices<\/title>
并且这个:\b<title>\w*(prices)\w*<\/title>\b
但不起作用:
答案 0 :(得分:1)
你非常接近。这应该可以解决问题:
<title>.*?prices<\/title>
您使用的是\w
,它只匹配单词字符(字母,数字和下划线),但不包含空格和其他字符。 .
匹配任何字符。
在此处试试:https://regex101.com/r/ZXXoy7/1
修改:您还可以按照用户@ tripleee的建议[^<>]
而不仅仅是.
此外,尽管正则表达式在这种情况下提供了一个简单的解决方案,但通常最好使用正确的HTML解析器来解析HTML。