应用错误收集

我是webscraping的新手。我想要做的是从亚马逊网站上抓取所有亚马逊电影。我去了亚马逊网站www.amazon.com。

我选择了搜索框左侧的亚马逊视频，然后输入“视频”并进行搜索。我得到了很多电影的清单。网址网址为https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo

接下来，我去了scrapy shell并输入scrapy shell 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我的回复状态为400 我也尝试添加用户代理。 scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36' 'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-alias%3Dinstant-video&field-keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我仍然得到响应状态```````。

为什么会这样？如何找到起始Url以便我可以开始抓取所有电影信息？

我不知道如何处理它。如果有人能提供帮助，我真的很感激。非常感谢。

scrapy：提取起始网址以抓取亚马逊视频信息的问题

1 个答案: