我一直试图让Scrapy的Linkextractor工作,但没有用。 我想让它找到任何链接,然后调用一个不同的方法,只是打印出一些东西,以显示它正在工作。
这是我的蜘蛛:
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
class TestSpider(CrawlSpider):
name = 'spi'
allowed_domains = ['https://www.reddit.com/']
start_urls = ['https://www.reddit.com/']
rules = [
Rule(LinkExtractor(allow=()),
callback='detail', follow=True)
]
def parse(self, response):
print("parsed!")
def detail(self, response):
print('parsed detail!')
当我使用命令“scrapy crawl spi”运行蜘蛛时: 我得到“解析!”,所以它只进入解析函数,而不是细节方法。