我是webscraping的新手。我想要做的是从亚马逊网站上抓取所有亚马逊电影。我去了亚马逊网站www.amazon.com。
我选择了搜索框左侧的亚马逊视频,然后输入“视频”并进行搜索。我得到了很多电影的清单。网址网址为https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo
接下来,我去了scrapy shell并输入scrapy shell 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo'
我的回复状态为400
我也尝试添加用户代理。 scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36' 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo'
我仍然得到响应状态```````。
为什么会这样? 如何找到起始Url以便我可以开始抓取所有电影信息?
我不知道如何处理它。如果有人能提供帮助,我真的很感激。非常感谢。
答案 0 :(得分:1)
首先我尝试了 scrapy shell“https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo”,我得到了503,然后我使用命令查看(响应)来查看页面上发生了什么。亚马逊让我verification code来验证我是不是一个机器人。
所以我用User-Agent设置输入了你的第二个scrapy shell命令,我得到200 response
也许您可以尝试使用查看(响应)并查看您的内容,或者您可以尝试scrapy shell几次?