使用Scrapy下载PDF文件

时间:2011-11-12 23:54:27

标签: python session cookies scrapy

我正在使用Scrapy(一种Python网络抓取框架)从网站上抓取pdf文件。

该网站需要遵循相同的会话才能下载pdf。

它适用于Scrapy,因为它全部自动化,但是当我在几秒钟后运行脚本时,它开始给我假的pdf文件,就像我试图直接访问pdf一样,没有我的会话。

为什么会如此&任何想法如何克服这个问题!?

1 个答案:

答案 0 :(得分:0)

我认为该网站会跟踪您的会话。如果是PHP站点,请将PHPSESSID cookie传递给下载PDF文件的请求。