scrapy:提取起始网址以抓取亚马逊视频信息的问题

时间:2018-01-26 22:52:15

标签: web-scraping scrapy

我是webscraping的新手。我想要做的是从亚马逊网站上抓取所有亚马逊电影。我去了亚马逊网站www.amazon.com。

我选择了搜索框左侧的亚马逊视频,然后输入“视频”并进行搜索。我得到了很多电影的清单。网址网址为https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo

接下来,我去了scrapy shell并输入scrapy shell 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我的回复状态为400 我也尝试添加用户代理。 scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36' 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我仍然得到响应状态```````。

为什么会这样? 如何找到起始Url以便我可以开始抓取所有电影信息?

我不知道如何处理它。如果有人能提供帮助,我真的很感激。非常感谢。

1 个答案:

答案 0 :(得分:1)

首先我尝试了 scrapy shell“https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo,我得到了503,然后我使用命令查看(响应)来查看页面上发生了什么。亚马逊让我verification code来验证我是不是一个机器人。

所以我用User-Agent设置输入了你的第二个scrapy shell命令,我得到200 response

也许您可以尝试使用查看(响应)并查看您的内容,或者您​​可以尝试scrapy shell几次?