import.io和portia正则表达式url模式

时间:2016-09-08 18:44:47

标签: regex import.io portia

我正在使用数据抓取工具:Import.io&波西亚。

它们都允许您为爬虫定义正则表达式以遵守。 例如网址:https://weedmaps.com/dispensaries/pdi-medical

我如何解释结尾“pdi-medical”?

我已经全神贯注地了解如何在JS环境中使用正则表达式,但是我对Portia / Import.io中输入的内容感到有点困惑

这样的东西? https://weedmaps.com/dispensaries// ^ [A-ZA-Z0-9 -_] + $ /

1 个答案:

答案 0 :(得分:0)

对于Portia,如果您希望抓取工具跟随以https://weedmaps.com/dispensaries/开头的任何网址,您只需添加以下正则表达式的抓取规则:

^https?://weedmaps.com/dispensaries/