我正在尝试使用和服来刮取亚马逊的结果页面。例如,我在Amazon.co.uk搜索引擎上键入“Sony”,并希望抓取结果以获取产品名称。我能够在一页上完成它,但我想使用分页功能刮掉多个页面。到目前为止,我无法让分页工作。我选择“下一页”作为分页的链接,但后来我收到E20错误。
任何人都知道我做错了什么?可能是亚马逊页面的结构阻止使用分页功能吗?
谢谢! Flo
答案 0 :(得分:0)
任何人都知道我做错了什么?
似乎你遇到过商业目录的难熬案例。它几乎总是防刮壁/倾斜。拥有数十亿件物品的亚马逊确保高墙防止数据被盗,而且这样的轻型刮刀工具肯定会(99,99%)绊倒它。 请参阅tips and tricks on scraping business directories。
这些网站特别警惕使用防刮措施来避免数据泄露。因此,请准备好迎接意外的坑和不可破坏的防火墙......
我的建议是你选择任何off-the-shelf scraping software,插入代理服务并继续抓取。