Question

我是新手，无法做任何事情。最终，我想通过遵循内部链接来抓取网站上的所有html注释。

目前，我只是尝试抓取内部链接并将其添加到列表中。

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

    class comment_spider(CrawlSpider):
        name = 'test'
        allowed_domains = ['https://www.andnowuknow.com/']
        start_urls = ["https://www.andnowuknow.com/"]

        rules = (Rule(LinkExtractor(), callback='parse_start_url', follow=True),)

        def parse_start_url(self, response):
            return self.parse_item(response)

        def parse_item(self, response):
            urls = []
            for link in LinkExtractor(allow=(),).extract_links(response):
                urls.append(link)
                print(urls)

我现在只是想让它打印一些东西，到目前为止我没有尝试过。

它的结束代码为0，但是不会打印，所以我无法告知发生了什么。

我想念什么？

Answer 1

您的消息日志肯定会给我们一些提示，但是我看到您的allowed_domains具有URL而不是域。您应该这样设置：

allowed_domains = ["andnowuknow.com"]

(See it in the official documentation)

希望有帮助。

Python：为什么在草率的scrapspider中无法打印或执行任何操作？

1 个答案: