解析用连字符分隔的单词

时间:2014-01-18 10:54:12

标签: regex

我需要使用正则表达式解析下面的字符串。我想出了两个变体,这两个变体对我来说都显得有些难看。请帮助我哪个更适合这份工作。

主要任务是在scrapy中解析url。

示例表达 -

/条/ 2014/01/16 / HCL-高科技盈股-idINDEEA0F02920140116

正则表达式 -

  1. /article/(\d+)/(\d+)/(\d+)/([0-9A-Za-z-]+)

  2. /article/(\d+)/(\d+)/(\d+)/\w+(-\w+)*

  3. 是的,我需要捕获整个结束表达式,因此第一个正则表达式完美地处理了这个问题。我使用https://pythex.org/验证了正则表达式。

    修改 -

    预期格式 -

    /article/(yyyy)/(mm)/(dd)/(words-separated-by-hyphen)

    我希望在/

    之后捕获/article分隔的所有内容

1 个答案:

答案 0 :(得分:2)

只需使用:

/article/(\d+)/(\d+)/(\d+)/(.*)

连字符似乎不必对网址中的内容做任何事情......