我的背景是什么
我想要什么:
我要问的是
谢谢!
答案 0 :(得分:0)
您可以在设置文件中设置用户代理,类似这样
USER_AGENT = 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
因此,对于网络服务器,看起来请求是从Chrome生成的。
答案 1 :(得分:0)
Scrapy
不使用浏览器,它可以解析静态HTML,例如BeautifulSoup
。如果要解析动态页面(由JavaScript生成),请使用selenium
,并且可以将页面源发送给Scrapy。
要设置Scrapy以使用自定义用户代理(Chrome),请在settings.py
中添加
USER_AGENT = Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36
或在my_spider.py
class MySpider(scrapy.Spider):
def start_requests(self):
yield scrapy.Request(self.start_urls, callback=self.parse, headers={"User-Agent": "Your Custom User Agent"})