python - 用Scrapy刮刮独特的网站 - Thinbug

用Scrapy刮刮独特的网站

时间：2015-12-02 04:01:18

标签： python web-crawler scrapy

我是一个新的网站，并使用Scrapy以递归方式获取域名下的所有网址。我使用了HtmlXPathSelector

hxs.select('//a/@href').extract()

获取网址。

但是，我有很多网址彼此非常相似。有没有办法将这些网址视为一个网站？

实施例： http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-21930?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-09565?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

我有大约80000个这样的不同网址，所以我想知道我做错了什么？其他网址如下：

53HK-39000
53HK-20000

我的算法就像：

for cur in url_lst:
    if cur in visited:
         continue
    yield Request(cur, callback=self.parse)

0 个答案:

没有答案