我需要使用正则表达式解析下面的字符串。我想出了两个变体,这两个变体对我来说都显得有些难看。请帮助我哪个更适合这份工作。
主要任务是在scrapy中解析url。
示例表达 -
/条/ 2014/01/16 / HCL-高科技盈股-idINDEEA0F02920140116
正则表达式 -
/article/(\d+)/(\d+)/(\d+)/([0-9A-Za-z-]+)
/article/(\d+)/(\d+)/(\d+)/\w+(-\w+)*
是的,我需要捕获整个结束表达式,因此第一个正则表达式完美地处理了这个问题。我使用https://pythex.org/验证了正则表达式。
修改 -
预期格式 -
/article/(yyyy)/(mm)/(dd)/(words-separated-by-hyphen)
我希望在/
/article
分隔的所有内容
答案 0 :(得分:2)
只需使用:
/article/(\d+)/(\d+)/(\d+)/(.*)
连字符似乎不必对网址中的内容做任何事情......