我正在使用数据抓取工具:Import.io&波西亚。
它们都允许您为爬虫定义正则表达式以遵守。 例如网址:https://weedmaps.com/dispensaries/pdi-medical
我如何解释结尾“pdi-medical”?
我已经全神贯注地了解如何在JS环境中使用正则表达式,但是我对Portia / Import.io中输入的内容感到有点困惑
这样的东西? https://weedmaps.com/dispensaries// ^ [A-ZA-Z0-9 -_] + $ /
答案 0 :(得分:0)
对于Portia,如果您希望抓取工具跟随以https://weedmaps.com/dispensaries/开头的任何网址,您只需添加以下正则表达式的抓取规则:
^https?://weedmaps.com/dispensaries/