应用错误收集

时间：2015-11-30 09:30:16

标签： pagination web-scraping kimono

我正在尝试使用和服来刮取亚马逊的结果页面。例如，我在Amazon.co.uk搜索引擎上键入“Sony”，并希望抓取结果以获取产品名称。我能够在一页上完成它，但我想使用分页功能刮掉多个页面。到目前为止，我无法让分页工作。我选择“下一页”作为分页的链接，但后来我收到E20错误。

任何人都知道我做错了什么？可能是亚马逊页面的结构阻止使用分页功能吗？

谢谢！ Flo

答案 0 :(得分：0)

任何人都知道我做错了什么？

似乎你遇到过商业目录的难熬案例。它几乎总是防刮壁/倾斜。拥有数十亿件物品的亚马逊确保高墙防止数据被盗，而且这样的轻型刮刀工具肯定会（99,99％）绊倒它。请参阅tips and tricks on scraping business directories。

引用

这些网站特别警惕使用防刮措施来避免数据泄露。因此，请准备好迎接意外的坑和不可破坏的防火墙......

我的建议是你选择任何off-the-shelf scraping software，插入代理服务并继续抓取。