在scrapy文件中设置useragent

时间:2017-02-01 19:16:23

标签: python python-3.x web-scraping scrapy

我希望将每个请求的useragent设置为不同的值。

我目前有代码可以在网页上找到链接:

    wee_result_page = []
    start_urls = ['oneurl.com']

    NEXT_PAGE_SELECTOR = 'a.sb_pagN ::attr(href)'
    next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
    if next_page:
        yield scrapy.Request(
            response.urljoin(next_page),
            callback=self.parse,
            headers={'referer':start_urls}
        )
        wee_result_page.append(response.urljoin(next_page)) 

我想知道我在这里添加user agent字符串的位置和方式,每次请求都会更改?

由于

1 个答案:

答案 0 :(得分:1)

您可以将每个请求设置为标题或创建自定义下载中间件,将随机用户代理附加到每个请求,但是有许多用户代理轮换中间件可用,这将为您完成工作,例如。) https://github.com/cnu/scrapy-random-useragent