我可以配置Storm crawler在抓取过程中将主机url添加到url路由的前面吗?

时间:2017-11-21 13:22:51

标签: web-crawler elasticsearch-5 stormcrawler

我想抓取这样没有托管主机的网址。

<div class=pro-info>
    <a href="/being-human-mens-solid-polo-t-shirt/p-202971521">
</div

我可以使用stormcrawler中的配置文件在这些网址前面添加网址的主机部分吗?

1 个答案:

答案 0 :(得分:0)

在解析过程中,URL将变为绝对值。获取完整的URL应该没什么特别的。