KimonoLabs爬虫生成的URL列表与正则表达式

时间:2016-04-07 11:45:18

标签: regex web-crawler

所以,我试图抓取一个拥有7,000个产品页面的网站,链接结构是这样的:

https://example.com/category/sub-category/numericid-name-of-the-product/

我想要实现的是生成URL列表,Kimono App有该选项,它实际上是对URL进行分区,但我只提供默认值,范围和自定义列表。< / p>

example

我尝试输入&#34; /.+/" 之类的内容来匹配所有字符,但这不起作用,我无法找到任何帮助关于官方kb。

。我知道import.io有那个&#34; {alpahnumeric}&#34;例如,对于URL的不同部分,它匹配它们,有没有办法在kimonolabs应用程序中实现它?

1 个答案:

答案 0 :(得分:0)

试试这个正则表达式:https://example.com/([^/]+)/([^/]+)/([0-9]+)-([^/]+)

注意:您可能需要转义某些字符(即/将转义为\/)。

另外,我对KimonoLabs并不熟悉,因此我不知道这是否是您正在寻找的内容。随意澄清。

解释

  • https://example.com/字面意思
  • ([^/]+)/一堆非/ s,后跟/
  • ([0-9]+)-([^/]+)数字后跟另一堆/ s