标签: python session cookies scrapy
我正在使用Scrapy(一种Python网络抓取框架)从网站上抓取pdf文件。
该网站需要遵循相同的会话才能下载pdf。
它适用于Scrapy,因为它全部自动化,但是当我在几秒钟后运行脚本时,它开始给我假的pdf文件,就像我试图直接访问pdf一样,没有我的会话。
为什么会如此&任何想法如何克服这个问题!?
答案 0 :(得分:0)
我认为该网站会跟踪您的会话。如果是PHP站点,请将PHPSESSID cookie传递给下载PDF文件的请求。