我是一个新的网站,并使用Scrapy以递归方式获取域名下的所有网址。 我使用了HtmlXPathSelector
hxs.select('//a/@href').extract()
获取网址。
但是,我有很多网址彼此非常相似。 有没有办法将这些网址视为一个网站?
我有大约80000个这样的不同网址,所以我想知道我做错了什么? 其他网址如下:
53HK-39000
53HK-20000
我的算法就像:
for cur in url_lst:
if cur in visited:
continue
yield Request(cur, callback=self.parse)