你好我是一个新手,目前正试图通过试验各种模式来学习正则表达式。我试图为这个url创建正则表达式模式但是失败了。这是亚马逊的分页链接。
或者
我只想通过这两件事检查网址。
如果网址有dp目录或产品目录
- 醇>
如果网址的查询字符串页面有任何数字
我尝试创建正则表达式模式但失败了。 我想要的是,如果第一件事不存在,那么正则表达式模式应与第二部分相匹配(反之亦然)。
这是我制作的正则表达式模式:
.*\/(dp|product)\/ | .*page
以下是我的regex101链接:https://regex101.com/r/zD2gP5/1#python
答案 0 :(得分:3)
由于您只想检查字符串是否包含某种模式,因此可以使用
\/(?:dp|product)\/|[&?]page=
请参阅regex demo
在Python中,只需查看re.search
:
import re
p = re.compile(r'/(?:dp|product)/|[&?]page=')
test_str = "http://w...content-available-to-author-only...n.in/s/lp_6563520031_pg_2?rh=n%3A5866078031%2Cn%3A%215866079031%2Cn%3A6563520031&page=2s&ie=UTF8&qid=14468025716"
if p.search(test_str):
print ("Found!")
此外,在Python正则表达式模式中,不需要转义/
斜杠。
正则表达式匹配两个替代子模式(\/(?:dp|product)\/
和[&?]page=
):
/
- 正斜杠(?:dp|product)
- dp
或product
(不将捕获存储在捕获缓冲区内,因为它是非 - 捕获组)/
- 斜线|
- 或...... [&?]
- &
或?
(我们检查查询字符串参数的开头)page=
- 文字符号序列page=
。答案 1 :(得分:2)
\/(dp|product)\/|page=(?=[^&]*\d)[^&]+
这是我的想法,请测试一下,如果您有疑问,请告诉我。