scrapy附加到linkextractor链接

时间:2015-04-24 22:55:19

标签: python web-scraping scrapy scrapy-spider

我正在使用CrawlSpiderLinkExtractor抓取链接。

如何将参数附加到LinkExtractor找到的链接?我想在'?pag_sortorder=0&pag_perPage=999'提取的每个链接中添加LinkExtractor

1 个答案:

答案 0 :(得分:4)

这是使用process_value argument的完美用例:

from scrapy.contrib.linkextractors import LinkExtractor

addition = "?pag_sortorder=0&pag_perPage=999"

LinkExtractor(process_value=lambda x: x + addition)