Scrapy - 用于域名收集的广泛爬虫

时间:2017-07-27 09:36:02

标签: python python-2.7 scrapy

我正在尝试为域名收集构建 Scrapy 抓取工具。

我想要的是收集带有'.sk'或'.cz'后缀的网站。

我的想法是提供一个开始网址列表(1000 skcz网址),抓取工具会转到url,如www.example.com,检查链接,如果这些链接具有正确的后缀,然后生成这些Request的基本形式的urls个对象。

抓取工具转到example.com,它会提取两个链接:https://www.page.cz/abouthttps://www.liss.cz/info/45,并使用这些网址产生两个请求:https://www.page.czhttps://www.liss.cz。< / p>

我现在创建了一个简单的蜘蛛但它没有找到任何链接和结束。

你对改进这种蜘蛛有什么想法吗?

class doSpider(CrawlSpider):
    name = "do_crawler"
    start_urls = [
              "https://www.seznam.cz/",
    ]



    def __init__(self, *args, **kwargs):
        self.extractor = LxmlLinkExtractor(allow='/.cz|.sk/')
        super(doSpider, self).__init__(*args, **kwargs)

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, callback=self.parse_links, meta={})


    def parse_links(self, response):
        for url in self.extractor.extract_links(response):
            # parse and save to db
            yield scrapy.Request(url, callback=self.parse_links, meta={})

0 个答案:

没有答案