用Scrapy刮刮独特的网站

时间:2015-12-02 04:01:18

标签: python web-crawler scrapy

我是一个新的网站,并使用Scrapy以递归方式获取域名下的所有网址。 我使用了HtmlXPathSelector

hxs.select('//a/@href').extract() 

获取网址。

但是,我有很多网址彼此非常相似。 有没有办法将这些网址视为一个网站?

实施例: http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-21930?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-09565?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

我有大约80000个这样的不同网址,所以我想知道我做错了什么? 其他网址如下:

53HK-39000
53HK-20000

我的算法就像:

for cur in url_lst:
    if cur in visited:
         continue
    yield Request(cur, callback=self.parse)

0 个答案:

没有答案