我正在尝试刮擦每个描述为玻璃门的工作,https://www.glassdoor.ca/Job/new-york-state-data-scientist-jobs-SRCH_IL.0,14_IS428_KO15,29.htm
在一个页面中,有很多职位发布,我试图遍历这些职位并抓取每个职位描述。我的程序运行良好,但是有时它会刮擦同一份工作描述多次,这是随机的。我认为这是因为Web抓取是高速发生的,因此未单击某些链接。是否正确,如果可以的话,我可以通过减慢每次单击链接的速度来解决此问题。
在时间模块中,time.sleep(1.5)减少了重复,而随着我增加time.sleep(3.5),它只有2个重复。还有其他建议吗?