我是新手,无法做任何事情。最终,我想通过遵循内部链接来抓取网站上的所有html注释。
目前,我只是尝试抓取内部链接并将其添加到列表中。
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class comment_spider(CrawlSpider):
name = 'test'
allowed_domains = ['https://www.andnowuknow.com/']
start_urls = ["https://www.andnowuknow.com/"]
rules = (Rule(LinkExtractor(), callback='parse_start_url', follow=True),)
def parse_start_url(self, response):
return self.parse_item(response)
def parse_item(self, response):
urls = []
for link in LinkExtractor(allow=(),).extract_links(response):
urls.append(link)
print(urls)
我现在只是想让它打印一些东西,到目前为止我没有尝试过。
它的结束代码为0,但是不会打印,所以我无法告知发生了什么。
我想念什么?
答案 0 :(得分:2)
您的消息日志肯定会给我们一些提示,但是我看到您的allowed_domains
具有URL而不是域。您应该这样设置:
allowed_domains = ["andnowuknow.com"]
(See it in the official documentation)
希望有帮助。