亚马逊刮和beautifulsoup

时间:2020-09-02 15:09:55

标签: python beautifulsoup screen-scraping

我正在尝试从亚马逊页面抓取数据。

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"}

r = requests.get('https://www.amazon.com/s?k=smartphone&pg='+str(pageNo)+'?ie=UTF8&pg='+str(pageNo), headers=headers)

content = r.content
soup = BeautifulSoup(content, features='lxml')

每个页面都会调用此函数。

一切都没问题,即产品名称,价格等

但是有很多重复项。例如,如果我刮了10页,则超过50%的数据是重复的。
我猜想,就像您在亚马逊页面上点击刷新时一样,产品是根据一些内部条件移动的。 同样适用于我的脚本。 每次调用该函数并打开和抓取页面时,项目可能会同时从其他页面移出,因此这里是重复项。

关于如何避免这种情况的任何想法? 谢谢

编辑:我添加更多信息。我已经删除了重复项,但是它看起来效率很低,只能抓取几十个页面,并且得到的结果很少。也许有一种可以一次读取所有页面的方法,以避免il或类似的情况。

0 个答案:

没有答案