标签: web-crawler elasticsearch-5 stormcrawler
我想抓取这样没有托管主机的网址。
<div class=pro-info> <a href="/being-human-mens-solid-polo-t-shirt/p-202971521"> </div
我可以使用stormcrawler中的配置文件在这些网址前面添加网址的主机部分吗?
答案 0 :(得分:0)
在解析过程中,URL将变为绝对值。获取完整的URL应该没什么特别的。