正则表达式,用于排除URL中的子字符串

时间:2019-05-21 13:40:41

标签: regex regex-lookarounds regex-group regex-greedy

我正在为我们公司的子域设置Hotjar记录。但是,由于子域不是固定字符串,因此我遇到了排除该子域的子字符串的问题。

基本上,子域是类别页面。总共共有大约34个不同的类别,我希望记录所有这些类别,因为它们基本上是同一页,只有一些副本有所更改。

示例类别网址:

https://se.readly.com/products/magazines/se/celebrities_entertainment
https://se.readly.com/products/magazines/se/dagstidningar

类别页面的子字符串网址示例:

https://se.readly.com/products/magazines/se/dagstidningar/kvaellsposten-1
https://se.readly.com/products/magazines/se/wedding/sisters-in-law-ett-nytt-slags-broellopsmagasin
https://se.readly.com/products/magazines/se/wedding/allt-om-broellop

我尝试不成功的代码示例(显然):

\bse.readly.com/products/magazines/se/[a-z-_]+$

1 个答案:

答案 0 :(得分:0)

在这里,我们可以逐步匹配所需的URL。如果需要,我们可能希望使用捕获组只是为了轻松获取URL组件。让我们从类似以下内容开始:

^(.+?)(se.readly.com)(\/products\/magazines\/se\/)([a-z0-9-_]+)(\/[a-z0-9-_]+)$

,并且如果需要,我们可以缩小边界。

enter image description here

DEMO