使用Scrapy获取网站时出错

时间:2017-08-22 00:02:15

标签: python-3.x scrapy web-crawler http-status-code-504

我正试图在shell中通过Scrapy获取一个网站,

$ scrapy shell -s NAME="Mozilla/5.0" "http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a"

2017-08-21 20:55:07 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (failed 3 times): 504 Gateway Time-out

但Scrapy通过我504错误,我无法弄清楚,任何猜测它可能是什么?。

2 个答案:

答案 0 :(得分:1)

您可能正在尝试在命令行上设置用户代理字符串,但使用了错误的设置(NAME)。尝试使用:

$ scrapy shell -s USER_AGENT="Mozilla/5.0" "http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a"

就像那样,我得到:

2017-08-22 07:40:30 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (referer: None)

答案 1 :(得分:0)

你被禁止或类似的东西。尝试使用其他IP地址。 在我的电脑上它给出了这个:

2017-08-22 00:07:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (referer: None) ['partial']