Question

我正在尝试从亚马逊页面抓取数据。

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"}

r = requests.get('https://www.amazon.com/s?k=smartphone&pg='+str(pageNo)+'?ie=UTF8&pg='+str(pageNo), headers=headers)

content = r.content
soup = BeautifulSoup(content, features='lxml')

每个页面都会调用此函数。

一切都没问题，即产品名称，价格等

但是有很多重复项。例如，如果我刮了10页，则超过50％的数据是重复的。
我猜想，就像您在亚马逊页面上点击刷新时一样，产品是根据一些内部条件移动的。同样适用于我的脚本。每次调用该函数并打开和抓取页面时，项目可能会同时从其他页面移出，因此这里是重复项。

关于如何避免这种情况的任何想法？谢谢

编辑：我添加更多信息。我已经删除了重复项，但是它看起来效率很低，只能抓取几十个页面，并且得到的结果很少。也许有一种可以一次读取所有页面的方法，以避免il或类似的情况。

亚马逊刮和beautifulsoup

0 个答案: