如何在正则表达式

时间:2015-11-06 10:17:11

标签: python regex

你好我是一个新手,目前正试图通过试验各种模式来学习正则表达式。我试图为这个url创建正则表达式模式但是失败了。这是亚马逊的分页链接。

  

http://www.amazon.in/s/lp_6563520031_pg_2?rh=n%3A5866078031%2Cn%3A%215866079031%2Cn%3A6563520031&page=2s&ie=UTF8&qid=1446802571

或者

  

http://www.amazon.in/Tena-Wet-Wipe-Pulls-White/dp/B001O1G242/ref=sr_1_46?s=industrial&ie=UTF8&qid=1446802608&sr=1-46

我只想通过这两件事检查网址。

  
      
  1. 如果网址有dp目录或产品目录

  2.   
  3. 如果网址的查询字符串页面有任何数字

  4.   

我尝试创建正则表达式模式但失败了。 我想要的是,如果第一件事不存在,那么正则表达式模式应与第二部分相匹配(反之亦然)

这是我制作的正则表达式模式:

.*\/(dp|product)\/ | .*page

以下是我的regex101链接:https://regex101.com/r/zD2gP5/1#python

2 个答案:

答案 0 :(得分:3)

由于您只想检查字符串是否包含某种模式,因此可以使用

\/(?:dp|product)\/|[&?]page=

请参阅regex demo

在Python中,只需查看re.search

import re
p = re.compile(r'/(?:dp|product)/|[&?]page=')
test_str = "http://w...content-available-to-author-only...n.in/s/lp_6563520031_pg_2?rh=n%3A5866078031%2Cn%3A%215866079031%2Cn%3A6563520031&page=2s&ie=UTF8&qid=14468025716"
if p.search(test_str):
    print ("Found!")

此外,在Python正则表达式模式中,不需要转义/斜杠。

正则表达式匹配两个替代子模式(\/(?:dp|product)\/[&?]page=):

  • / - 正斜杠
  • (?:dp|product) - dpproduct(不将捕获存储在捕获缓冲区内,因为它是 - 捕获组)
  • / - 斜线
  • | - 或......
  • [&?] - &?(我们检查查询字符串参数的开头)
  • page= - 文字符号序列page=

答案 1 :(得分:2)

\/(dp|product)\/|page=(?=[^&]*\d)[^&]+

这是我的想法,请测试一下,如果您有疑问,请告诉我。