检查爬虫中的所有域

时间:2021-07-02 08:24:19

标签: python web-scraping scrapy web-crawler

class WebsiteSpider(CrawlSpider):

    name = "webcrawler"
    
    allowed_domains = ["www.reichelt.com", "cdn-reichelt.de"]
    start_urls = [""https://www.reichelt.com/""]

我正在为基本起始 url 设置爬虫。我的爬虫无法从我的基本 url 中抓取所有子链接,因为其中一些位于不同的 url 上。例如cdn-reichelt.de。有什么方法可以修改它,以便我的爬虫抓取它在该起始 url 上遇到的所有域?

0 个答案:

没有答案