我一直在为许多新闻网站开发一个抓取脚本,并使用Scrapy来处理逻辑。
当我在Ubuntu网络服务器上运行我的脚本时(数字海洋,如果这有帮助),很多在本地机器上返回200的网站变成了417。
我想知道如何解决这个问题,如果这是一个问题呢?我实际上不太确定它是否会影响最终输出,但它似乎已经存在。
我自己的一些研究已经出现了:
http://www.checkupdown.com/status/E417.html。我已经尝试在我的请求中添加Expect标头,但是还没有工作
我听说HTTP 1.1 vs 1.0可能有问题吗?编辑:没有。如果可用,Scrapy的HTTPDownloaderHandler会自动选择1.1
答案 0 :(得分:0)
417是Web服务器在您的客户端表示期望内容类型为a,b,c时提供的错误,但服务器可以提供的内容与这些类型中的任何一种都不匹配。
这看起来像是一个scrapy bug,或者更可能是错误配置。